纵横大数据-云计算数据基础设施
云计算技术的基础知识与应用

基于云计算的物流信息化平台,能够实现物流信息的实时共享和处理,提高了物流运输 的效率和准确性。
06
云计算发展趋势与挑 战
边缘计算与雾计算发展趋势
边缘计算
随着物联网设备的普及,数据处理和分析将更多地发生在网络边 缘,以减少延迟并提高处理效率。
雾计算
作为云计算的延伸,雾计算将处理和分析任务分散到网络中的各个 节点,提高数据处理速度和效率。
智能投顾
基于云计算和大数据技术的智能投顾,能够为投资者提供更加个性化、精准的投 资建议,降低了投资门槛,提高了投资回报率。
制造行业:智能制造、工业大数据等
智能制造
云计算为制造业提供了灵活的IT 资源,支持制造业实现数字化、 网络化、智能化的转型,提高了 生产效率和产品质量。
工业大数据
基于云计算的工业大数据平台, 能够实时收集、处理和分析生产 线上的数据,为制造企业提供更 加精准的生产计划和优化建议。
法规遵从
为了满足法规遵从的要求,云计算服务提供商通常会提供一系列的安全和合规性功能,如审计日志、 数据保留策略、灾难恢复计划等。这些功能可以帮助企业证明其已采取必要的安全措施来保护数据, 并在发生安全事件时及时响应和恢复。
05
云计算在各行业应用 案例
金融行业:互联网金融、智能投顾等
互联网金融
云计算为互联网金融提供了高可用、高扩展性的基础设施,支持处理海量数据和 高并发交易,提升了金融服务的效率和用户体验。
02
云计算基础设施
服务器虚拟化技术
定义
服务器虚拟化是将物理服务器划分为 多个虚拟服务器,每个虚拟服务器可 以独立运行不同的操作系统和应用程 序。
优点
实现方式
通过虚拟化软件(如VMware、 Hyper-V等)在物理服务器上创建虚 拟机,实现服务器资源的逻辑抽象和 动态分配。
云计算与大数据技术 第2章-云计算基础

并行取数困难 JDBC访问效率太低 数据库并发访问数太多
理想的解决方案是把大数据存储到分布式文件系统中。云计算系统中广泛使用的数据存储系统 是GFS和HDFS。
2、虚拟化技术
虚拟化技术是云计算系统的核心组成部分之一,是将各种计算及存储资源 充分整合和高效利用的关键技术。 资源分享 资源定制 细粒度资源管理
基于以上特点,虚拟化技术成为实现云计算资源池化和按需服务的基础。
3、云平台技术
云平台技术能够使大量的服务器协同工作,方便地进行业务部署,快速 发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运 营。
计算服务
负载管理
虚拟化
主机
基础设施 虚拟化
网络
备份 其他硬件
管 理
开 和
发 业
工 务
具 支 撑
1、软件即服务(SaaS)
SaaS是Software as a Service(软件即服务)的简称,它是一种通过 Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web 的软件。 随时随地访问 支持公开协议 安全保障 多用户机制
问题:
安全性 可用性
2、私有云
私有云,是指企业自己使用的云,它所有的服务不是供别人使用, 而是供自己内部人员或分支机构使用。 优点是安全性、可用性相比公有云好一些; 缺点是成本较大。
3、混合云
混合云,是指供自己和客户共同使用的云,它所提供的服务既可以 供别人使用,也可以供自己使用。
混合云是两种或两种以上的云计算模式的混合体,如公有云和私有 云混合。
当前大数据基础设施发展现状及趋势分析

当前大数据基础设施发展现状及趋势分析当前的大数据基础设施正在发展,发展状况和趋势也在发生变化。
大数据基础设施包括各种数据收集,储存,处理,分析和可视化工具。
随着科技的发展,大数据基础设施可以使企业更有效地运营,有助于企业做出更好的决策并制定更有效的策略。
本文将分析当前大数据基础设施的发展状况和趋势。
一、当前的大数据基础设施发展现状
当前,大数据基础设施正在不断发展、发明和升级。
目前的大数据基础设施包括文字处理,图片处理,视频处理以及网络爬虫技术等。
1.文字处理技术:随着人工智能(AI)和大数据的发展,文字处理技术已成为大数据基础设施的重要组成部分。
该技术能够收集和处理来自各种渠道的文字信息,如社交媒体,新闻网站,博客等。
它使公司可以分析新闻、市场调查等文字信息,以发现新的机会和威胁。
2.图片处理技术:也叫图像处理,用于提取结构化和非结构化数据。
该技术可以提取图像特征,以支持AI应用,例如图像识别、目标检测和语义分割等。
3.视频处理技术:视频处理技术可以帮助企业提取。
2022继续教育《数字经济技能培训专题》答案题库

— 1 —A 数字生产方式B 数字技术C 数字化公共服务D数字化治理E 数字化转型A大型化B虚拟化C综合化D资源化A“美新好大”B“专特美新”C“小精美特”D“专精特新”— 2 —— 3 —A 规模优势不明显,供需结构性失衡B 人才储备不足,财政支持力度不够C 数据中心能耗大,PUE 提升空间较大D关键技术受制于人,缺乏全球竞争力E 缺乏大数据中心建设标准,运维管理能力相对滞后A 数据中心B 工业互联网C 人工智能D 区块链— 4 —A 加速数据要素价值化进程B 推进实体经济数字化转型C 着力提升产业基础能力D强化数字经济的治理能力E 深化数字经济开放合作— 5 —A 战略机遇期B 起步拓展期C 交织发展期D 矛盾凸显期A上游B 中游C 下游D 以上都不对— 6 —— 7 —A 气候变化B 种族歧视C经济发展缓慢D 文化差异较大A 数据B 算力C 算法D网络E技术A传统基础设施B信息基础设施C融合基础设施D创新基础设施E改进基础设施— 8 —A加快关键核心技术研发和产业化B提高数据中心的效率,降低数据中心的PUEC统筹布局,加强数据中心的绿色集约建设D支持龙头企业的全球化布局,提高国际化的竞争力E完善政策标准体系,引导产业良性发展A数字经济B数字社会— 9 —C数字政府D数字生态E数字文化— 11 —A 20%B 25%C30%D 35%A 数字经济B 开放经济C共享经济D 绿色经济A智能制造B绿色低碳C共享经济D现代供应链E中高端消费— 12 —— 13 —A 可复制性B 可共享性C 无限增长D无限供给E 私密性A高速泛在B天地一体C云网融合D智能敏捷E绿色低碳、安全可控A从技术创新到模式创新B从自动控制到智慧感知C从单一产品到全程服务D从前端前台到云端云台— 14 —A标准B核心C路线D内容— 15 —A链式经济B价值链C价值网D平台经济A再生经济B规模经济C数字经济D实体经济— 16 —A云计算B大数据C物联网D工业互联网E区块链— 17 —A电信业务B云服务C房地产出租D互联网接入服务E资产分配— 18 —A互联网B大数据C人工智能D数字经济E实体经济— 19 —A土地B劳动力C资本D技术E数据A数字经济B数字社会C数字政府D数字生态— 20 —— 21 —— 22 —A 雄安新区B 福建省C 重庆市D四川省E 广东省A 智慧医疗B 智慧文旅— 23 —C 智慧社区D 智慧政务E 智慧家居A 良好的数字基础设施B 数量庞大且收入快速增长的人口C 强大的制造能力D 占全球15%的工业软件人才E 质优价廉的丰富工业产品A智慧城市B操作系统C平台垄断D网络平台— 24 —A经验、知识、方法B方法、数据、经验C数据、数据、数据D数据、经验、知识— 25 —A新产品B新模式C新业态D新就业E新消费— 26 —— 27 —A 示范性B 引领性C 标志性D 普遍性A 我国数据中心的市场规模约占全球的三分之一,增速远超全球的平均水平B 我国数据中心的耗电量逐年攀升,近三年电能使用效率PUE 明显改善C 全国数据中心地域分布存在明显的差异,主要集中于一线发达地区以及周边 D数据中心基础设施设备总收入提高E 数据中心市场仍以基础电信运营商为主,第三方的服务商和云厂商的占比不高A传统基础设施B信息基础设施C融合基础设施D创新基础设施E改进基础设施A雄安新区B福建省C浙江省D四川省— 28 —— 29 —A可复制性B可共享性C无限增长D无限供给E私密性A资源B技术C经济人D社会— 30 —A经济全球化B世界多极化C发展多样化D社会信息化E文化多样化A智慧城市B操作系统C平台垄断D网络平台— 31 —A数据信息资源逐步成为新的关键要素资源B数字技术创新是数字经济持续发展的源动力C平台化是数字经济主要产业组织形态D产业融合是数字经济主要表现形式E多元共治是数字经济时代必然的治理要求A标准B核心C路线D内容— 32 —A从技术创新到模式创新B从自动控制到智慧感知C从单一产品到全程服务D从前端前台到云端云台A土地B劳动力— 33 —C资本D技术E数据A二线B一、二线C西南部— 34 —— 35 —D 东部A 从技术创新到模式创新B 从自动控制到智慧感知C从单一产品到全程服务D 从前端前台到云端云台A 云计算B 大数据C物联网D工业互联网E区块链A产业基础能力不强B先进技术存在差距C国际化发展水平有待提高D法律制度环境不完善E数字经济发展不平衡— 36 —A雄安新区B福建省C重庆市D四川省— 37 —E广东省A20%B25%C30%D35%— 38 —A智能制造B绿色低碳C共享经济D现代供应链E中高端消费A数字经济B开放经济C共享经济D绿色经济— 39 —A13B15C17D19A大型化B虚拟化C综合化D资源化— 40 —A链式经济B价值链— 41 —— 42 —C 价值网D 平台经济A 上海B 北京C深圳D 广州A互联网B大数据C人工智能D数字经济E实体经济— 43 —A数字生产方式B数字技术C数字化公共服务D数字化治理E数字化转型A战略机遇期B起步拓展期C交织发展期D矛盾凸显期A智慧医疗B智慧文旅C智慧社区D智慧政务E智慧家居— 45 —A平台经济B区域经济C生物经济D数字经济— 46 —A再生经济B规模经济C数字经济D实体经济— 47 —— 48 —A 数据B 算力C 算法D网络E 技术A数字经济B数字社会C数字政府D数字生态E数字文化— 49 —A二线B一、二线C西南部D东部A加快关键核心技术研发和产业化B提高数据中心的效率,降低数据中心的PUEC统筹布局,加强数据中心的绿色集约建设D支持龙头企业的全球化布局,提高国际化的竞争力E完善政策标准体系,引导产业良性发展— 50 —。
云计算和大数据基础知识

云计算与大数据基础知识一、云计算是什么?云计算就是统一部署的程序、统一存储并由相关程序统一管理着的数据!云计算cloud computing是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。
因此,云计算甚至可以让你体验每秒超过10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。
用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算.云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
通俗的理解是,云计算的“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等),所有的处理都在云计算提供商所提供的计算机群来完成。
用户可以动态申请部分资源,支持各种应用程序的运转,无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于提高效率、降低成本和技术创新。
云计算的核心理念是资源池。
二、云计算的基本原理云计算的基本原理是,在大量的分布式计算机集群上,对这些硬件基础设施通过虚拟化技术构建不同的资源池.如存储资源池、网络资源池、计算机资源池、数据资源池和软件资源池,对这些资源实现自动管理,部署不同的服务供用户应用,这使得企业能够将资源切换成所需要的应用,根据需求访问计算机和存储系统。
打个比方,这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。
它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。
最大的不同在于,它是通过互联网进行传输的。
三、云计算的特点1、支持异构基础资源云计算可以构建在不同的基础平台之上,即可以有效兼容各种不同种类的硬件和软件基础资源。
数字技术创新基础设施建设

数字技术创新基础设施建设声明:本文内容信息来源于公开渠道,对文中内容的准确性、完整性、及时性或可靠性不作任何保证。
本文内容仅供参考与学习交流使用,不构成相关领域的建议和依据。
一、云计算基础设施建设云计算是一种基于互联网的计算方式,通过将大量的计算资源集中在数据中心中,并通过网络提供给用户使用。
为了支持云计算的运行,需要进行云计算基础设施的建设。
云计算基础设施包括硬件设备、软件系统和网络基础设施。
(一)硬件设备1、服务器:云计算基础设施的核心是服务器,它是提供计算能力和存储空间的关键设备。
云计算数据中心通常会配置大量的服务器来满足用户的需求。
这些服务器需要具备高性能、高可靠性和高可扩展性。
2、存储设备:云计算基础设施需要大规模的存储设备来保存用户数据和应用程序。
传统的硬盘存储已经不能满足云计算的需求,因此,固态硬盘等新型存储技术被广泛应用。
3、网络设备:云计算基础设施的网络设备包括交换机、路由器和防火墙等。
这些设备可以实现数据中心内部的高速通信和数据的安全传输。
(二)软件系统1、虚拟化技术:虚拟化技术是云计算基础设施建设的核心技术之-O通过虚拟化技术,可以将物理资源划分为多个虚拟资源,并且可以按需分配给用户。
这样可以提高资源利用率和灵活性。
2、自动化管理系统:云计算基础设施需要一个高效的自动化管理系统来管理和监控各种资源。
这个系统可以实现资源的自动调度、故障的自动修复和性能的自动优化。
3、安全管理系统:云计算基础设施的安全非常重要,因为用户的数据和应用程序都存储在云中。
安全管理系统包括身份认证、访问控制、数据加密等功能,以保护用户的隐私和数据安全。
(三)网络基础设施1、高速网络:云计算基础设施需要高速的网络来满足用户的需求。
传统的以太网已经不能满足云计算的要求,因此,光纤网络等新型网络技术被广泛应用。
2、数据中心互连:在多个数据中心之间建立高速的互连网络,可以实现数据的备份和容灾。
这样可以提高数据的可靠性和可用性。
“纵横”双维的财务数智化创新实践

“纵横”双维的财务数智化创新实践一、财务数智化的概念及意义随着信息技术的飞速发展,企业面临着日益激烈的市场竞争和不断变化的商业环境。
在这种背景下,财务数智化作为一种新型的财务管理模式,已经成为企业发展的重要战略选择。
财务数智化是指通过运用大数据、云计算、人工智能等先进技术手段,对企业的财务数据进行深度挖掘、分析和应用,从而实现财务决策的智能化、精细化和高效化。
提高财务数据的准确性和实时性。
通过对财务数据的实时采集、处理和分析,可以有效降低财务数据的误差,提高财务数据的准确性和可靠性。
财务数智化还可以实现对财务数据的实时监控,为企业提供及时、准确的经济信息支持。
优化财务决策过程。
财务数智化可以帮助企业实现对财务数据的全面、深入分析,从而为企业的财务决策提供有力的数据支持。
通过对财务数据的挖掘和分析,企业可以更加精确地把握市场动态、行业趋势和企业内部运营状况,从而做出更加合理、有效的财务决策。
提高财务工作效率。
传统的财务管理方式往往需要大量的人力投入,效率较低。
而财务数智化可以通过自动化、智能化的技术手段,实现财务工作的快速、高效完成。
这不仅可以降低企业的人力成本,还可以提高财务工作的执行力和响应速度。
拓展财务服务领域。
财务数智化可以将传统的财务管理服务从线下延伸到线上,实现财务服务的全覆盖。
财务数智化还可以通过与其他业务系统的整合,为企业提供更加丰富、个性化的财务服务,满足企业在不同场景下的财务需求。
提升企业竞争力。
财务数智化可以帮助企业更好地把握市场机遇,优化资源配置,提高经营效益。
在激烈的市场竞争中,具备财务数智化的企业将具有更强的市场竞争力和发展潜力。
财务数智化是一种具有重要意义的财务管理创新实践,通过实施财务数智化,企业可以实现财务数据的价值最大化,为企业的发展提供强大的数据支持。
1. 财务数智化的定义和内涵数据驱动:财务数智化强调以数据为基础,通过对企业财务数据的收集、整理、分析和应用,为企业决策提供有力支持。
云计算基础设施服务

云计算基础设施服务云计算是当前科技领域的热门话题,对于企业和个人用户而言,云计算基础设施服务已经成为了一种重要的选择。
云计算基础设施服务是指提供计算、存储和网络等基础设施资源的服务,用户可以根据自己的需求弹性地使用这些资源,从而实现高效、灵活和可扩展的计算能力。
一、云计算基础设施服务的概念云计算基础设施服务,简称IaaS(Infrastructure as a Service),是云计算三种基本服务模式之一。
它通过虚拟化技术将计算、存储和网络等基础设施资源进行汇总和整合,并以服务的形式向用户提供。
用户可以根据实际需求租用这些资源,并根据自身业务的发展情况灵活调整资源使用量,以实现成本的最优化和业务的快速响应。
二、云计算基础设施服务的特点1. 弹性扩展:云计算基础设施服务以虚拟化技术为基础,资源的分配和释放可以实现秒级响应,满足用户根据实际需求进行弹性扩展的需求。
2. 付费模式灵活:用户可以根据资源的使用情况进行按需付费,不再需要长期投入昂贵的硬件设备和维护费用,从而降低成本。
3. 可靠性和安全性高:云计算基础设施服务提供商通常采用冗余机制和灾备措施,确保服务的可用性和数据的安全性。
4. 全球覆盖:云计算基础设施服务通常通过构建全球性的数据中心网络,实现资源的就近部署和全球覆盖,为用户提供低延迟、高带宽的服务。
三、云计算基础设施服务的应用场景云计算基础设施服务广泛应用于各个行业和领域,以下是几个典型的应用场景:1. 企业的IT基础设施外包:企业可以将自己的服务器和存储设备等IT基础设施外包给云服务提供商,以降低维护成本和风险,并实现按需使用。
2. 大数据处理和分析:云计算基础设施服务提供了强大的计算和存储能力,适合用于大数据的处理和分析,可以帮助企业迅速挖掘出有价值的信息。
3. 应用开发和测试:开发和测试环境通常需要灵活的计算和存储资源,云计算基础设施服务可以满足这一需求,提高开发效率和质量。
4. 云备份和灾备:云计算基础设施服务提供商通常具备高可用性和冗余机制,可以为企业提供可靠的数据备份和灾备方案,提高业务的连续性与可恢复性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简介大数据的概念很火,但人们对它的认识却是混乱的:有人说大数据就是指所有的数据,有人说大数据是指线上行为、日志等半结构/非结构化的数据形态,有人说大数据就是以Hadoop 为代表的新技术……到底什么是大数据?同样风风火火了很久的云计算与大数据有什么关系?令人眼花缭乱的众多大数据技术的本质是什么?各有什么优缺点?争论不休的“小变大”与“大变小”技术策略到底孰正孰邪?企业究竟应该如何定位与使用大数据,难道是为了Hadoop而 Hadoop?未来的技术方向究竟如何?《纵横大数据(云计算数据基础设施)/云计算实践指南丛书》结合现代企业数据管理实践,从策略、技术、应用、企业数据架构等多个维度,体系化地对大数据及相关技术进行了全面深入的论述:首先对大数据相关概念予以澄清;接着深入剖析各种大数据技术的内在本质,指出其各自的优缺点、适用场景与相互关系;同时对大数据技术“分”与“合”这两种广受争议的技术策略的内在联系进行了分析与讨论,明确指出现代数据管理技术的发展趋势;最后结合大数据时代企业新一代数据架构规划的实际,对大数据及相关技术在企业数据体系中的具体定位给出了切实可行的建议,并且面向云数据中心建设,提出了大数据云——云计算数据基础设施的概念与方法。
序言“云计算”与“大数据”应该说是目前IT界最为热门的两个概念了。
云计算以各种软硬件资源新的消费与交付模式为核心理念,被普遍认为将会成为未来社会最为深远的革新。
而现实却是:在多“云”的天空,成功的实践却少得可怜,致使其很多情况下只是充当了一个时髦的噱头。
令人遗憾的是,如今风头已远远盖过“云计算”的“大数据”,其现实情况与此类似。
大数据概念最初是伴随着Hadoop等开源技术的推广而出现的,在国内外众多互联网公司依靠它们取得巨大成功的强力推动下,传统数据管理技术的地位受到了严重的挑战,似乎不知Hadoop、不用Hadoop就会落后!但如何才能在本企业或者某个具体需求中正确有效地使用这些新技术呢?这至今依然是众多企业技术决策者的困惑。
大多数企业目前对大数据潮流的热烈响应其实是“雷声大,雨点小”,其中相当一部分是不分青红皂白,纯粹为了Hadoop而Hadoop,很少有产生实际成效的案例。
本书认为,要正确回答这些问题,给出合适的决策,必须对这些技术本身进行较为深入的了解与分析,然后结合自己企业的实际,做出自己的判断。
任何其他企业的经验都不可以照搬照抄;任何资料中关于各种技术的适用场景描述,即使是正确的,也都有其特殊的上下文环境,不可以当成普遍真理去盲目遵从。
这里所说的对技术的了解,并不是指具体如何去使用它,而是指其内在本质、特点与相互联系,这些往往比使用方法更重要,也是本书区别于其他大数据资料的主要特点之一。
首先,让我们看看云计算与大数据的关系,目前人们对此的理解更是混乱不堪,有人认为两者完全不同,有人则认为大数据技术其实就是云计算。
对“云”,最开始,人们普遍认为那是一种采用一堆闲散资源完成一件重大任务的技术。
后来,人们又意识到现代社会对“云”的诠释,其实更多的是指一种以服务为主的商业模式,而不是一种技术。
现在,绝大多数人对“云”的理解停留于此,认为“云计算”与技术无关的人大都是这种思路。
但在对“云”业务模式的实践中却发现,要搞“云”服务,必须从技术手段与商业模式两个维度同时入手才有意义,只拥有其中任何一个方面都是不行的,甚至可以说前者要比后者重要得多。
大多数情况下,在“云”能适用的领域内,如果没有前者,后者所能提供的服务水平自然也就很有限,从而也就自然失去了“云”的含义。
所以说,云计算的本质是商业模式,但其核心却仍然是技术问题。
而云在技术层面的核心问题又是什么呢?有人认为是“小变大”的分布式计算,有人认为是“大变小”的虚拟化,而本书认为,云计算最核心的问题是数据,具体地讲,是现代业务环境下的数据管理问题,也就是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术,这实际上就是传统数据管理技术在现代的最大挑战。
这其中最耀眼的,就是各种新兴的大数据家族成员的出现,包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库(关系数据库联邦)、分布式文件系统等,甚至还包括非开源体系的新一代关系数据库。
这样看来,“大数据”应该是“云计算”业务模式得以实现在数据管理层面的核心技术支撑,两者密不可分。
而从纯技术的角度看,“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略,而Hadoop等流行大数据技术的核心思路大多如此。
因此,我们又可以说:“云计算”是大数据的技术实现方法。
这便是云计算与大数据的联系,两者无论是在业务上,还是技术上,都是相互依存的。
一句话,无论叫什么名称,其实都是代表现代IT发展的最新进展而已。
再来看看各种流行的大数据技术本身,包括 Hadoop,NoSQL,NewSQL,甚至一些新一代的关系数据库等。
对它们,在现代数据管理领域内,目前的状态却是:人们普遍困惑的并不是能不能掌握这些技术的具体用法,而是到底什么时候,在什么场景下,如何定位与使用这些技术?这主要表现在以下几个方面。
一是如何定位新旧技术。
即指新兴的以Hadoop为代表的开源技术,与传统的关系数据库技术,到底是新技术彻底颠覆传统技术,还是两者共存?如果是共存,如何共存?这是目前各个企业普遍感到困惑的最重要的问题。
二是部分技术人员对新事物只是盲从。
大家在应用实践中或多或少地会遇到一些困难,于是很多技术人员就会把希望寄托在新出现的技术上,认为只要一用上如 Hadoop或NoSQL 这些新东西,目前的问题就会迎刃而解。
接下来就立即紧张地投入到新技术的学习与使用上去,而不做是否适合自己需求的合理判断。
很显然,这种对新技术的崇拜是盲目的。
三是各种技术之间出现了互相攻击、互相否定的态势。
一度以来,传统的主流关系数据库(如Oracle,DB2 等)在实践中出现了一些问题,主要是对高负荷环境下的海量数据应用出现了力不从心的现象,同时,其水平扩展性的限制与高昂的成本问题使客户越来越难以忍受。
于是,一些非关系型的NoSQL数据库,或者一些低端数据库集群方案(如MySQL集群)就在一些场合替代了主流的商业数据库,并且表现出很优秀的性价比;另外,有些企业在分析领域也出现了以Hadoop MapReduce等开源产品全面替代关系型数据仓库的现象。
于是,便出现了一种思潮,认为关系数据库最终将退出历史舞台。
而另有一部分人则认为,所谓极其成功的新技术,只是昙花一现的暂时现象而已,传统的关系数据库经过改良以后,依然会是数据管理领域的王者,其他的技术会像30多年前关系数据库与其他数据管理技术之争的结果一样,逐渐消失。
这些观点中,大多都是凭直觉、凭感觉、凭个人经验的判断得出,虽然不能说是武断,但如果没有令人信服的技术分析做支撑,就很难说谁对谁错。
四是新技术本身在实践中也出现了很多的问题。
例如Hadoop MapReduce,虽然已经出现了Hadoop 2.0中的各项重要改进,但相信只要是真正用过它的人都知道,其在方便性、可靠性、可用性、效率等方面都还很不尽如人意。
笔者记得一位很熟悉Hadoop 的朋友说:“如果企业能用关系数据库解决问题,就尽量不要用它!”再如Twitter放弃了用Cassandra替代MySQL的决策,Digg使用 Cassandra后出现的一系列严重问题等,都使很多人开始重新审视这些新技术。
其实,究其根本,以上现象出现的主要原因是:人们只是去学习如何使用这些新技术,却很少独立思考,对它们进行较为深入的学习与剖析;很少在设计思想、技术架构、内在本质等方面将它们与其他技术进行对比,以能在真正掌握后,做出属于自己、适合自己的判断。
而这些又正是本书的主体内容。
如果在数据库技术领域继续探究,会发现NoSQL技术虽然适合海量数据的快速存取,却无法满足较复杂的关系模型数据管理及人们对习惯使用SQL语言的要求,而标准的关系数据库在水平扩展性上又严重受限。
那么,是否存在一种技术,既可以使用关系模型存储数据,使用SQL操作数据,又可以像NoSQL一样方便扩展?于是,本书还与读者分享了笔者自主研发的一个关系型云数据库的设计与实践,它既不同于目前流行的Hadoop/NoSQL等开源技术,也不同于传统的关系数据库,是一种介于两者之间的技术模式,目前的状态正好满足 Hadoop与传统关系数据库都不太适用的企业级海量历史数据管理的需求,并已经在实践中取得一定的成果。
接着,由该自主产品的设计实践活动出发,我们产生了对Hadoop本身许多固有技术问题更大胆的、更进一步的深入思考:PB级海量数据的批量分析能不能比Hadoop再提高一个数量级,例如,达到秒级?在保守的认识中,这样的要求似乎是不合理的,也是不可能实现的。
然而大数据领域最新的技术进展—Hadoop的缔造者Google近年来一系列更前沿的、被称为“Google新三驾马车”的研究成果,通过模式(Schema)的回归与精巧的设计,已经向这样似乎是“不可能的任务”的宏伟目标迈出了一大步。
这使我们意识到:技术的发展瞬息万变,Hadoop本身已不见得有多么先进了,想要在实践中做出正确的决策,就必须不断学习,勇于创新,不断经历破与立的过程,而不能故步自封,原地不动。
除了需要对各种大数据技术手段进行深入剖析以外,当今IT界还在云计算技术两个不同的技术策略上有着广泛的争议,即“分”为云与“合”为云,前者是指数据切分后以小变大,后者是指以大变小,将分散的小资源集中整合起来管理后,再将资源进行统一的按需调度与分配。
两者都称自己是云计算技术(或者说是大数据技术)的正宗,相互攻击与否定的现象极为激烈,并且各自都有坚实的成功实践为基础。
表现最明显的就是以淘宝为代表的新兴互联网技术力量与IBM、Oracle等老牌的数据库厂商之间关于以“分”为主的开源技术及以“合”为主的一体机技术之间的争论与竞争,可以说已经到了白热化的阶段。
他们各说各话,各有千秋,已经成为企业技术决策者的主要困惑之一。
而实际上,经过研究与分析,很容易就可以发现,他们所争论的“分”与“合”,看起来是完全相反的,实际上并不矛盾,其实是你中有我,我中有你,两者是有机结合的统一体,在现代数据管理的需求中都有各自的定位。
企业所要做的并不是对技术策略进行非你即他的选择,而是根据自己的实际情况与需求,对各种技术与产品进行合理的定位;同时,更加重要的工作并不是某一项技术的正确定位与使用,而是能站在云数据中心建设的高度,将传统关系数据库资源与Hadoop集群资源集中起来形成PaaS平台,再对外提供分散的、数据相关的云服务,包括数据库云与Hadoop平台云,可以将之统称为大数据云。