大数据即服务DaaS以及大大数据
《云计算导论》-思考与练习答案

第1章走近云计算一、选择题(1)A (2)D (3)B (4)C二、简答题(1)总的来说,云计算就是一种基于Internet的超级计算模式,在远程数据中心里,成千上万台计算机和服务器等设备连接成一片云,用户通过计算机、手机等接入数据中心,进行按需的网络访问。
(2)云计算具有5个基本特征,包括用户按需自助获取服务、广泛的网络访问、资源虚拟化、快速弹性的资源分配和可度量的资源使用情况。
(3)①效用计算是一种将计算能力和特定应用程序等资源统一生产和出售的商业模式。
用户可以像将灯泡插入灯座一样使用计算机的资源,并如同支付水电费一样,按使用量进行个性化付费。
②网格计算是一种解决大规模计算问题的分布式计算模型,它可将Internet中分布在不同地理位置的异构计算机利用标准、开放、通用的协议和接口有机整合,形成一个虚拟的、具有惊人计算能力的计算机集群。
效用计算奠定了云计算的商业模式;网格计算为云计算模型奠定了理论基础和实验环境。
第2章云计算基础一、选择题(1)D (2)B (3)C (4)A(5)C (6)D (7)B (8)A二、简答题(1)NIST云计算参考架构中各角色的职责如表1所示。
表1 NIST云计算参考架构中各角色的职责在这5个角色中,云承载者为整个云计算系统提供技术支持和实现途径。
除云承载者外其余4个角色的交互如下。
①云提供商为云消费者提供云计算服务。
②云消费者可直接向云提供商或通过云代理商申请云计算服务。
③云代理商可作为云计算和云提供商之间的媒介。
④云审核员为第三方独立审核机构,可对云提供商或代理商提供的云计算服务进行独立审核(包括服务安全性、隐私性和性能等),并将审核结果反馈给云消费者、云提供商和云代理商。
(2)“四层两域”模型中“四层”指基础设施层、资源层、平台层和软件层。
“两域”指服务域和管理域。
(3)云计算服务模型包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件及服务(SaaS),此外,还新增了“一切即服务(XaaS)”的概念,如数据即服务(DaaS)、网络即服务(NaaS)、容器即服务(CaaS)等。
数据即服务(DaaS)的好处和趋势

数据即服务(DaaS)的好处和趋势 数据即服务(DaaS)的好处和趋势 很多企业不仅将数据即服务(DaaS)视为⼀种独特的收⼊渠道,⽽且还将其视为通过情报重塑商业世界的⼀种途径。
数据和分析的重要性⽇益提⾼,也正推动着数据即服务重要性的提⾼。
外部DaaS服务使企业可以轻松访问外部数据,⽽内部DaaS服务使企业更容易实现分析民主化,并增强业务⽤户的能⼒。
因此,以下将讨论DaaS的好处和最新发展趋势。
什么是DaaS? 数据即服务(DaaS)是⼀种数据管理策略和⼀种部署模型,它以云计算为重点,以提供各种与数据相关的服务,例如存储、处理和分析。
DaaS利⽤了流⾏的SaaS模式,通过这种模式,客户可以使⽤通过⽹络交付的基于云计算的软件应⽤程序,⽽⽆需为特定数据集上的特定任务部署专⽤硬件服务器。
DaaS是⼀种架构,⽽不是单⼀供应商提供的技术。
因此,它提供了多种⽅式来传递、收集和处理来⾃以不同格式的各种来源的数据。
DaaS中包含的技术是: 信息⽣命周期管理解决⽅案。
数据建模/质量/复制/转换。
内容管理。
DaaS业务通常是基于订阅的,客户在其中购买⼀系列服务或选择性服务。
全球各地的DaaS供应商向客户收取费⽤的定价模型主要属于基于数量的定价,即供应商根据客户希望使⽤的数据量向客户收费,并根据每次使⽤的服务付费,供应商会根据客户到API的每次使⽤收取费⽤。
DaaS的好处是什么? 对于选择DaaS作为数据相关操作的主要交付机制的企业来说,采⽤DaaS有很多好处。
通过使⽤DaaS将数据存储在集中式基础设施中,企业可以在基础设施投资⽅⾯获得规模经济的好处。
它还有助于促进技能集的标准化,以提⾼管理效率。
此外,它还为跨组织共享数据提供了更多机会,从⽽导致更多的协作和知识共享。
以下进⾏更详细的了解: (1) 数据质量 ⽤户通过数据服务访问数据。
由于数据服务是单⼀的更新点,因此更容易跟踪数据更改,从⽽可以提⾼数据质量。
云计算四层分——IaaS、PaaS、SaaS、DaaS

云计算四层分——IaaS、PaaS、SaaS、DaaS云计算四层分——IaaS、PaaS、SaaS、DaaS来源:云计算通俗来说就是输⼊/输出和计算不在⼀个主机上。
计算要⽤到计算设备,计算设备⼀般是指CPU、内存和硬盘,输⼊/输出设备⼀般是指键盘、⿏标、显⽰器、⽿机、⾳响、话筒等外设。
⽽我们的个⼈计算机是使⽤主板将这些东西连接到⼀起来协调⼯作。
⼀个软件在执⾏以完成某项任务的时候,如果⽤到的计算设备和输⼊/输出设备不是通过主板连接,⽽是通过⽹络连接,那么这个过程就叫云计算。
举⼏个例⼦来说明⼀下:1、我远程到客户电脑给客户处理问题,输⼊/输出使⽤的是我的⿏标、键盘和显⽰器,计算使⽤的是客户的CPU、内存和硬盘。
2、打开百度,搜索“云计算”,百度给我返回很多相关的内容。
搜索程序运⾏在百度的搜索引擎服务器上,⽽输⼊和输出是在我的电脑上。
3、登录百度云盘,在云盘⾥存储⽂件,删除⽂件,下载⽂件等。
⽽云计算给我们的感觉⼀般都是这样:1、输⼊/输出在终端,终端触⼿可及;计算在云端,云端位置未知。
2、云端资源永远是⽆限的(公有云,例如阿⾥云),需要多少,按需租⽤,完全满⾜弹性需求。
⼀个完整的云计算环境由云端、计算机⽹络和终端三部门组成(也就是常说的云、管、端)。
云端就是指计算设备,负责完成软件的计算;终端是指我们⽤来完成输⼊/输⼊的设备;计算机⽹络负责将云端和终端连接起来,完成信息传输(将终端的输⼊指令传输到云端,将云端的执⾏结果反馈给终端)。
公有云服务商组建了云端并对外出租计算设备,那么出租类型也就是我们常说的——IaaS SaaS、PaaS、DaaS。
回忆⼀下上⼀期我讲的IT架构九重天,这九层妖塔是在云服务商那⾥负责建设了,那⽤户租⽤的时候,这4种类型是租哪部分呢?⼀、IaaSIaaS是Infrastructure as a server的缩写,意思是基础设施即服务。
⼜云端公司把IT环境的基础设施建设好,然后直接对外出租硬件服务器或者虚拟机。
网络存储技术考试

网络存储技术考试(答案见尾页)一、选择题1. 网络存储技术的核心概念是什么?A. 数据库系统B. 文件系统C. 对象存储D. 云存储2. 网络存储中常用的协议有哪些?A. TCP/IPB. HTTPC. FTPD. CIFS (SMB)3. 在网络存储系统中,哪种设备负责存储数据?A. 网络接口卡B. 存储设备C. 控制器D. 网络交换机4. 以下哪种存储类型提供了持久性、可扩展性和高性能?A. 块存储B. 文件存储C. 对象存储D. 内存存储5. 网络附加存储(NAS)的主要特点是什么?A. 高度可扩展性B. 高性能C. 高可用性D. 扩展性6. 什么是云存储?它如何工作?A. 云存储是一种网络存储技术,它允许用户通过互联网访问和使用存储在远程服务器上的数据。
B. 云存储是一种分布式存储系统,它将数据分散在多个地理位置的服务器上。
C. 云存储是一种文件存储技术,它允许用户通过互联网访问和使用存储在远程服务器上的文件。
D. 云存储是一种对象存储技术,它允许用户通过互联网访问和使用存储在远程服务器上的对象。
7. 在网络存储中,哪种拓扑结构提供了高可靠性?A. 星型拓扑B. 环型拓扑C. 网状拓扑D. 分布式拓扑8. 网络存储中的数据备份和恢复策略通常包括哪些步骤?A. 数据加密B. 数据复制C. 数据压缩D. 数据备份9. 在云存储中,哪种服务模型提供了按需访问和无限扩展的能力?A. SaaS(软件即服务)B. PaaS(平台即服务)C. IaaS(基础设施即服务)D. FaaS(函数即服务)10. 网络存储的技术发展趋势是什么?A. 容器化存储B. 物联网(IoT)存储C. 多租户存储D. 人工智能辅助的存储管理11. 网络存储技术的核心概念是什么?A. 数据库管理B. 文件系统C. 对象存储D. 云存储12. 网络存储技术中的SAN和NAS有什么区别?A. 地理位置B. 操作系统C. 数据共享D. 访问控制13. 在网络存储技术中,哪种技术支持数据的冗余和恢复?A. RAID 5B. NASC. SAND. IP SAN14. 网络附加存储(NAS)的主要应用场景是什么?A. 大型企业文件共享B. 邮件服务器数据存储C. 虚拟化环境D. 大数据分析15. 什么是网络存储?它与传统硬盘有何不同?A. 网络存储是一种数据存储技术,通过局域网或广域网进行数据传输和存储。
daas名词解释

daas名词解释
DAAS,即“数据即服务”(Data as a Service),是一种将数据作为一种服务提供给客户的模式。
它将数据集中管理,并通过云计算和网络技术,以可灵活使用的方式提供给用户。
DAAS的主要特点如下:
1. 集中管理:DAAS将数据存储在云平台中,通过统一的管理和维护,确保数据的一致性和安全性。
2. 弹性使用:用户可以按需获取数据,根据自己的需求进行灵活调整,大大提高了数据的使用效率。
3. 高可用性:DAAS采用云计算的技术,并对数据进行冗余备份,确保数据的高可用性和可靠性。
4. 实时更新:DAAS能够及时更新数据,用户可以获取到最新的数据,确保决策的准确性。
5. 支持多种数据类型:DAAS可以支持结构化数据、半结构化数据和非结构化数据,能够满足不同类型数据的需求。
6. API接口:DAAS通常提供API接口,方便用户通过编程的方式使用数据,提高数据的可操作性。
DAAS广泛应用于各个领域的数据需求中,例如市场研究、企
业决策支持、物联网、人工智能等。
通过使用DAAS,用户可以更高效地获取和利用数据,加速业务的发展和创新。
2022年职业考证-软考-信息系统监理师考试全真模拟易错、难点剖析B卷(带答案)第58期

2022年职业考证-软考-信息系统监理师考试全真模拟易错、难点剖析B卷(带答案)一.综合题(共15题)1.单选题()负责向用户提供计算机能力、存储空间等基础设施方法的服务。
问题1选项asB.SaasC.PaasD.Daas【答案】A【解析】IaaS:向用户提供计算机能力、存储空间等基础设施方面的服务。
PaaS:向用户提供虚拟的操作系统、数据库管理系统、Web应用等平台化服务。
SaaS:向用户提供应用软件(如:CRM、办公软件)、组件、工作流等虚拟化软件的服务。
Daas:数据即服务,把数据转换成信息,提供公共信息服务。
2.单选题某企业员工单位办公自动化系统不好用,问题包括:登录经常失败、系统频繁上锁、运行太慢、难以使用、报表不准确。
经统计,第一、第二类问题占总投诉中的80%,监理单位重新分析,建议承建单位集中力量先解决登录和上锁问题。
监理单位分析问题的方法是()。
问题1选项A.控制分析法B.趋势分析法C.帕累托分析法D.统计分析法【答案】C【解析】帕累托分析指确认造成系统质量问题的诸多因素中最为重要的几个因素。
也称为80-20法则。
意思是,80%的问题经常是由于20%的原因引起的。
例如,用户抱怨应用系统问题有如下几方面:登录问题、系统上锁、系统太慢、系统难以使用、报告不准确。
经统计,第一、二类抱怨占总抱怨数的80%。
因此,应集中力量解决系统登录和系统上锁问题。
3.单选题信息系统工程变更的因素不包括:()。
问题1选项A.项目外部环境的变化B.项目需求分析出现遗漏C.新技术的出现,设计人员提出新的设计方案D.监理单位机构重组造成业务流程的变化【答案】D【解析】参考教材P162;一般情况下,造成信息系统工程变更的原因有以下几个方面:项目外部环境发生变化,例如政府政策的变化。
项目总体设计,项目需求分析不够周密详细,有一定的错误或者遗漏。
新技术的出现、设计人员提出了新的设计方案或者新的实现手段。
建设单位由于机构重组等原因造成业务流程的变化。
云服务类型:IaaS、PaaS、SaaS、CaaS、BaaS、DaaS、NaaS、FaaS

云服务类型:IaaS、PaaS、SaaS、CaaS、BaaS、DaaS、NaaS、FaaS1. IaaS (Infrastructure as a Service:基础设施即服务)出租内容:硬件服务器或者虚拟机。
即数据中心IT基础设置。
由云端公司建设好基础设施,企业直接租用基础设施。
基础设施包括处理CPU、内存、存储、网络和其它基本的计算资源。
出租场景:有一天企业想做一个软件,直接去云端公司买了服务器等资源,企业只需要关注软件和建立开发平台,部署在租来的基础设施上,就可以完成需求了,这样节省了维护成本和办公场地。
出租IaaS服务的公司:Amazon, Microsoft, VMWare, Rackspace和Red Hat.2. PaaS (Platform as a Service:平台即服务)出租内容:服务器平台或者开发环境,比如操作系统、中间件、数据库等。
出租场景:有一天企业想做一个软件,直接去平台服务商公司买了服务器等基础设施、还包括开发软件的操作系统、中间件、数据库等平台资源,企业只需要在平台开发软件,就可以完成需求了。
PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。
因此,PaaS也是SaaS模式的一种应用。
PaaS层介于软件即服务与基础设施即服务之间.3. SaaS (Software as a Service:软件即服务)出租内容:应用软件。
出租场景:SaaS平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得Saas平台供应商提供的服务。
4. BaaS (Backend as a Service:后台即服务)出租对象:移动应用开发者出租内容:整合云后端的边界服务。
抽象化的后台服务,比如文件存储、数据存储、推送服务等实现难度较高的功能,以帮助开发者快速开发移动应用。
基于Hadoop构建大数据云平台(DAAS)

Hadoop和虚拟化的差异点
虚拟化技术
CPU资源
V1
内存资源
V2 Vn
硬盘资源
切分
硬盘资源
虚拟化技术
服务器
内存资源 CPU资源 服务器
服务器
聚合
专注于企业级大数据 4200台主机
集中存储和计算的主要瓶颈
Oracle IBM
EMC存储
scale-up(纵向扩展)
➢计算能力和机器数量成正比 ➢IO能力和机器数量成非正比
VPS VPS
VPS VPS
小型机 cpu
小型机 cpu
数据移动
计算瓶颈 带宽瓶颈
存储阵列
磁盘IO瓶颈
基于共享存储和高性能计算的架构。 大型机和小型机的差别 存储阵列和普通硬盘的差别 IO,稳定性。
专注于企业级大数据
Hadoop MapReduce 提供存储和计算扩展能力
交换机 R
交换机
➢计算能力和机器数量成正比
➢IO能力和机器数量成正比
R Reduce
cpu M 服务器
cpu M
服务器
cpu M 服务器
cpu M
服务器
cpu M 服务器
cpu
MM AP 数据移动 服务器
计算瓶颈 带宽瓶颈
HDFS 存储 存储 存储 存储 存储 存储
磁盘IO瓶颈
横向扩展(scale-out)
➢移动计算而非移动数据; ➢化整为零(128m),分片处理; ➢计算和存储资源池花 ➢并行IO,本地化计算,降低网络通专注信于;企业级大数据
近线区 非结构化
归档区 文件形
OLTP交易 数据库
实时,低价 值日志数 据
Serach, OLAP分析 视频/文本数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术发展态势跟踪——关于大数据的几个重要观点和产业技术路线发展2014-8-14 11:50:31文章来源:科技发展研究杂志大数据(Big Data),普遍认为是指在特定行业中,超出常规处理能力、实时生成、类型多样化的数据集合体,具有海量(Volume)、快速(Velocity)、多样(Variety)和价值(Value)的4V 特征。
最早提出大数据特征的是2001 年麦塔集团(后被Gartner 公司收购)分析师道格•莱尼(Douglas Laney)发布的《3D 数据管理:控制数据容量、处理速度及数据种类》(3D Data Management: ControllingData Volume, Velocity and Variety),提出了4V 特征中的3V。
最早提出词汇“Big Data”的是2011 年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告。
之后,经Gartner 技术炒作曲线和2012 年维克托•舍恩伯格《大数据时代:生活、工作与思维的大变革》的宣传推广,大数据概念开始风靡全球。
一、关于大数据的几个重要观点大数据发展至今,伴随着很多争议。
有人称之为“新瓶装旧酒”,也有人认为大数据的机遇被过于夸大,企业就是在这种怀疑和忐忑中抓紧推进大数据应用。
客观上看,大数据在研究式、企业战略层面具有变革的潜力,但不宜过于强调其新颖性,不应同过去的数据学科领域割裂开来;21 世纪以来,大数据技术发生了革命性突破,主要体现在对3V 特性的“适应”和“运用”上,目前受益最大的是云计算产业,对其他产业和社会发展的变革作用尚未落地。
有如下几个重要判断和观点:1、大数据的核心思想本质是数据挖掘。
数据挖掘(Data Mining)借助计算机从海量数据中发现隐含的知识和规律,是一门融合了计算机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模式识别等理论在上世纪90 时代推行知识管理时已有显著进展。
从本质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智能(Business Intelligence)模式创新,都是数据挖掘理论的延伸,表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。
比如,因果关系是数理统计中的重要容,基于完善的数学理论,代表是回归模型;而相关关系是数据挖掘中的重要容,基于强大的机器运算能力,代表是神经网络、决策树算法,这使得人们不需要了解背后复杂的因果逻辑也可以获得良好的分析和预测结果。
从某种程度上说,必须感谢大数据的宣传者,正是这样的热炒才让数据挖掘这样一门小众却极具价值的科学展现在大众眼前,起到了很好的科普作用。
2、突破主要来自技术上的“能力拓展”。
表现在对多样(Variety)、海量(Volume)、快速(Velocity)特征的“适应”和“运用”上:一是存储数据从结构化向半结构化、非结构化拓展,如基于Web 异构环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数据的专有挖掘算法的产生和发展。
二是数据库从关系型向非关系型、分布式拓展,关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel 表格,缺点在于存储容量小、数据扩展性和多样性差,而新的非关系型、分布式数据库可以弥补上述不足。
三是数据处理从静态向实时交互拓展,新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,有效应对多样(Variety)和海量(Volume)带来的复杂度和时效性要求。
3、能力拓展直接促成了价值(Value)的实现。
得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。
比如,传统BI 分析有一个“集中”步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整的数据仓库,这个步骤往往成为BI 分析全过程的能力瓶颈;而基于大数据分布式技术的BI 分析无需“集中”,大大提升了敏捷度和智能水平,从而推动机器学习、语义处理等领域发生重大突破,直接促成了Mahout 机器学习算法集、Siri 语音助手等一批商用化产品的问世。
4、变革的潜力主要体现在数据开放战略和数据驱动式上。
在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态、新模式蓬勃发展,在此基础上将推动机构数据开放和公众共享运动的兴起。
在研究式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头,如生物基因与健康等研发密集型产业开始向数据研究科学拓展;许多传统的科学研究如历史、文学等也开始尝试运用数据分析技术。
但上述重大变革目前尚未真正实现。
大数据现有技术水平的主要受益产业仍然是云计算和各类基于云计算的商业模式,在信息基础设施普及率、社会开放性以及与网络智能交互技术的结合度没有达到一定能级时,大数据的应用是有限的,达不到面向社会的“无所不能”。
5、大数据技术的主要推动者是互联网企业。
由于更多地围绕云计算,所以大数据的底层架构和核心技术主要由谷歌、亚马逊、脸谱以及美国Apache 基金会等互联网企业机构掌握。
谷歌公司研发了大数据“三核心”——文件系统(GoogleFileSystem )、处理算法(MapReduce)和分布式数据库(BigTable),打造了全球大数据开发的主流框架和式。
雅虎和Apache 基金会基于谷歌的算法思想,开发了Hadoop 开源框架,向广大企业和创业者开放,推动产业生态系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具;而微软、IBM 等传统IT 企业在产业链上更多关注下游应用,开发产品和系统解决方案。
6、大数据的提出有助于进一步明晰云计算的概念。
从专有领域的角度看,原来的云计算包括两层概念:一类是海量数据的高效处理,主要是大规模分布式并行运算技术,代表是谷歌公司;另一类是硬件资源的虚拟化分配,更多聚焦虚拟机技术和对象存储出租商业模式,代表是亚马逊公司。
这两层概念相互交织,往往让外界分不清楚。
大数据概念的提出,可以将前者完全涵盖,侧重微观、技术和前端;云计算这个概念今后可更多地在商业模式层面进行定义,侧重宏观、服务和后端。
任何IT 企业的云战略都可以分成两条线:一个是大数据,一个是云计算,分别对应不同的产品。
比如微软公司,如果说的是其并行数据仓库与Hadoop 集成的解决方案,那么谈论的是大数据;如果提到的是其Azure 数据库服务租用平台和IaaS、PaaS、SaaS 三类服务模式,那么谈论的是云计算。
7、数据并非越大越有价值。
大数据支持者的一个重要论断是:基于全量,大数据分析的准确性将超越传统数理统计,因果关系将为相关关系所取代,而事实并非如此乐观。
一方面,传统的数理统计没有过时。
其经历四百年的发展,仍然在经济社会各方面发挥着重要作用。
比如,抽样是一门古老且成熟的统计方法,如果目标明确、方法科学,其在绝大多数情况下得出结论的正确性,并不逊于全量数据。
客观上看,全量的价值更多体现在一些传统数理统计基本假设可能失效之处,如互联网“长尾”现象的出现,导致正态分布、帕累托法则在个别领域不再适用,此时需要依靠全量数据寻求规律。
另一方面,全量伴生的“噪音”有时会影响精准度。
例如,被誉为大数据杰出案例的“谷歌流感趋势”近期陷入低谷,错误率高达90%以上(108 周中错了100 周),不能预测甲型H1N1 等重大疫情。
它的核心逻辑是:搜索“流感”的人数与实际患症的人数之间存在相关性,而事实上,即便去医院看流感的人都有80%~90%实际没有得流感,表面的网络搜索行为与可靠的信息来源还存在较大差距以及“去噪”过程。
很多专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作为其补充。
二、大数据技术发展经历了从萌芽到成熟的过程基于Web of Science 数据库1中1994 年后涉及大数据概念的4495篇文献,采用Citespace 知识图谱工具,通过热点关键词和高被引文献分析,勾勒出了大数据技术从萌芽到成熟的发展历程(如图1、2)。
1、萌芽期:数据挖掘技术(上世纪90 年代-本世纪初)随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
此时,对于大数据的研究主要集中于“Algorithms”(算法)、“Model”(模型)、“Patterns”(模式)、“Identification”(识别)等热点关键词,高被引文献侧重于数据挖掘和机器学习的基础技术,如1993 年Quinlan JR 发明的C4.5 数据挖掘算法,1995 年VladimirN.Vapnik 撰写的机器学习教材,以及1998 年Eisen MB 等关于聚类分析和全基因组表达模式的研究等。
2、突破期:围绕非结构化数据自由探索(2003-2006 年)非结构化数据的爆发带动大数据技术的快速突破。
以 2004 年Facebook 创立为标志,社交网络的流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对。
此时的热点关键词较为分散,包括了“Systems”(系统)、“Networks”(网络)、“Evolution”(演化)等,高被引文献也很少,说明学术界、企业界正从多角度对数据处理系统、数据库架构进行重新思考,且尚未形成共识。
期间,谷歌公司Jeff Dean 和Sanjay Ghemawat 发表了三篇论文,分别提出GoogleFileSystem(2003)、MapReduce 算法(2004)和BigTable 数据库(2006),奠定了大数据技术的核心基础。
3、成熟期:形成并行运算与分布式系统(2006-2009 年)Jeff Dean 在BigTable 基础上开发了Spanner 数据库(2009)。
此阶段,大数据研究的热点关键词再次趋于集中,聚焦“Performance”(性能)、“CloudComputing”(云计算)、“MapReduce”(大规模数据集并行运算算法)、“Hadoop”(开源分布式系统基础架构)等。
在高被引文献方面,有两篇引人注目,分别是2008 年谷歌公司正式发表的MapReduce 论文和2009 年Tom White 发表的Hadoop 论文。
4、未来:大数据技术仍在快速发展(2010 年至今)随着智能手机的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。
老“三核心”面临能力瓶颈,而2010 年谷歌为应对这种趋势而开发的Percolator、Dremel 和Pregel 日趋成为新“三核心”。
与此同时,非关系型数据库(NoSQL)再次自我革新,开始转向兼具关系型易查询和非关系型高扩展性的新型云数据库(NewSQL),代表如谷歌的Spanner、亚马逊的RDS、微软的SQL Azure 等,大数据的核心技术仍在快速发展。