大数据及其发展趋势研究

【摘要】介绍大数据产生背景,详细剖析大数据的基本概念及其特征,同时提炼了大数据的五种关键技术,指出大数据与云计算、物联网和数据空间相结合的发展趋势,以揭示需要研究的关键内容,为大数据的相关研究者提供参考。

【关键词】大数据云计算物联网数据空间

【中图分类号】G【文献标识码】A

【文章编号】0450-9889(2013)09C-0190-03

随着社交网络、移动互联、电子商务、互联网和云计算的兴起,音频、视频、图像、日志等数据正在以指数级增长,互联网的边界和应用范围不断被扩展。据麦肯锡的预测,2010年全球范围内硬盘存储的新数据超过7EB(1EB=10亿GB),而到2020年,全球数据总量将达到约35ZB(1ZB=10亿TB),大数据正以其多源、海量、异构的特性冲击着社会的各个领域,为传统的数据库系统在存储、访问和管理大数据方面带来严峻的考验,无论是在学术界还是工业界,都引起人们高度的关注。

2008年,国际顶级学术期刊Nature以“BigData”为专刊,讨论了大数据给各个领域带来的冲击和挑战;2011年,国际顶级学术期刊《Science》推出“Dealingwithdata”专刊,重点探讨了对大数据的处理技术;2011年5月,全球著名咨询机构麦肯锡公司发布题为“大数据:下一个创新、竞争和生产力的前沿”的报告,明确提出应对大数据快速发展的策略,是第一份系统阐述大数据的专题研究成果;2011、2012年,中国举办了第一届、第二届“大数据世界论坛”,邀请了微软、甲骨文、因特尔等国际资深专家,覆盖金融、电信、能源等各个领域,共同探讨大数据前沿技术与发展态势,以应对持续增长的海

量数据;2012年1月达沃斯世界经济论

坛把大数据作为主题之一,探讨如何挖掘

大数据的商业价值,为企业带来更好的社

会效益;2012年3月,美国奥巴马政府耗

资2亿美元研究“大数据研究和发展计

划”,引导工业界、学术界和非营利机构改

进和提高访问、收集、组织大数据的技术

和方法。

大数据已经成为一种战略资源,具有

广阔的应用前景。为了有效地管理大型复

杂的数据和高效提取有价值的知识,还需

要进一步把握大数据特性,选择合理的处

理方式。

一、大数据的基本概念和特征

(一)大数据的基本概念。大数据是继

云计算、物联网后的又一全球热点问题,

因其潜在的巨大价值而受到各界的广泛

关注。大数据从2009年开始流行于互联

网,专家们从不同角度定义了大数据,由

于大数据本身具有较强的抽象性,目前还

没有一个统一公认的定义。

在早期,著名的Apache的开源项目

Nutch用大数据描述用于批处理或分析的

大规模数据集。大数据研究机构Gartner

将大数据定义为一种具大规模、多样性和

高增长特性的信息资产,其结构与现有的

数据库处理系统不兼容,需新的并行数据

处理平台或技术从大数据中提取潜在有

价值的决策、优化信息。《著云台》团队认

为,大数据是各种机构或组织在生成或交

互过程中产生的大规模半结构化、非结构

化数据,需要比关系型数据库有更强的数

据存储和计算能力。全球排名第一的企业

数据集成软件商Informatica认为大数据

包括海量数据和复杂数据类型,其规模超

过传统数据库系统进行管理和处理的能

力。著名的存储解决方案公司NetApp定

义大数据包含分析、带宽和内容三要素,

侧重于大数据的实时分析、高速处理和高

可扩展性。维基百科则认为大数据是超过

当前现有的数据库系统或数据库管理工

具处理能力,处理时间超过客户能容忍时

间的大规模复杂数据集。

大数据概念上虽然与“海量数据”和

“大规模数据”相似,但仍存在重要的差

别。在内涵方面,它不仅包含了“海量数

据”和“大规模数据”,而且还包括了更为

复杂的数据类型;在数据处理方面,数据

处理的响应速度由传统的周、天、小时降

为分、秒的时间处理周期,需要借助云计

算、物联网技术降低成本,提高处理大数

据的效率。

(二)大数据的基本特征。大数据通常

是指数据规模大于10TB以上的数据集。

其特征是具有典型的“4V”(Volume、Vari-

ety、Velocity、Value),即规模性、多样性、高

速性和价值性。

1.规模性。随着信息化技术的高速发

展,数据开始爆发性增长。社交网络(微

博、Twitter、Facebook)、移动网络、各种智

能终端等,都成为数据的来源。淘宝网近

4亿的会员每天产生的商品交易数据约

20TB;Facebook约10亿的用户每天产生

的日志数据超过300TB;Google每天通过

云计算平台处理的数据超13.4PB。迫切需

要智能的算法、强大的数据处理平台和新

的数据处理技术,来统计、分析、预测和实

时处理如此大规模的数据。

2.多样性。由于数据来源于不同的应

用系统和不同的设备,决定了大数据形式

的多样性。大体可以分为三类:一是结构

化数据,如财务系统数据、信息管理系统

数据、医疗系统数据等,其特点是数据间

因果关系强;二是非结构化的数据,如视

频、图片、音频等,其特点是数据间没有因

大数据及其发展趋势研究

□广西机电工业学校李斌

职教实务·技术应用

果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。

3.高速性。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4.价值性。大数据中有价值的数据所占比例很小,大数据的价值性体现在从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,运用于农业、金融、医疗等各个领域,以创造更大的价值。

二、大数据的关键技术

(一)存储技术。随着Internet技术的迅猛发展,各个领域数据急剧增加,目前已达到PB级海量数据,传统的数据库管理系统已经不适应存储数量巨大、形式多样的数据,迫切需要新的技术应对规模急速增长、结构复杂多样的数据存储。为满足大容量存储,需构建分布式存储系统,如当前流行的hadoop海量分布式平台,当数据量增加时,通过增加存储节点来保持数据分布的平衡,保持系统的易扩展性;为存储结构复杂多样的数据,应摒弃当前只针对结构化数据的存储方案,根据不同格式数据选取不同的存储策略。对结构化、半结构化和非结构化的数据可依次采用类似shared-nothing分布式并行数据库系统、面向文档的分布式存储系统、面向文件的分布式存储系统,以兼具多种数据格式,快速应对海量数据统计、查询和更新操作。

(二)机器学习技术。从数量巨大、结构复杂的大数据中挖掘出有用的知识和规律,人工操作已无能为力,必须利用机器学习技术,更深层次智能分析数据,更高效获取数据中隐藏的有效知识。随着大数据时代的到来,文本数据、图形图像数据、网络流量数据等不断涌现,用于处理大数据的机器学习新技术被提出并受到广泛关注。传统的机器学习方法如支持向量机、决策树、贝叶斯、神经网络等,因泛化能力有限,已经不适应大规模网络的快速分析。能同时利用有标记样本和无标记

样本的半监督学习技术、整合多个具有差

异性学习器的集成学习技术、充分积累历

史学习结果的增量学习技术,凭借其对高

维采集、查询和存储方面的优势,已被引

入到处理大数据的并行技术中,为大数据

的研究提供了新的思路。

(三)高性能计算技术。大数据的出现

对计算能力的要求越来越高,大容量数据

中心维护,并发任务的访问,高速的传输

率和各设备间的负载均衡都需要高性能

技术的支持,具体来说,在计算成本方面,

需采用价格低廉的分布式计算节点,通过

大量廉价节点进行并行计算,降低传统计

算方式的成本;在计算实时性方面,引入

各种高效机器学习算法,同时借助软硬件

协同的优势,根据客户的计算任务,快速

创建数据、分析数据、计算数据,并给用户

提供毫秒级的体验;在数据格式方面,对

各种不同的数据要采用不同的格式处理

方法,计算难度和开销增大,各种数据平

台的兼容和软硬件平台的协同是提高高

性能技术的关键之一。

(四)统一描述技术。由于大数据的数

据源异构、地理位置分散、表现形式多样,

这使得数据间存在不一致性问题。对大数

据进行处理的第一步是对不同格式的数

据进行统一描述,数据的统一描述有两方

面的优势:一是提供统一的数据结构,简

化系统的处理复杂度;二是减少系统上层

应用程序处理数据的开销。RDF(Resource

DescriptionFramework)即资源描述框架

在描述资源的一致性方面具有通用性、智

能性等特点,但其建模语言不丰富,逻辑

推理能力有限,还需要一个具体的语法体

系对其进行扩展。为应对大数据,基于本

体的数据描述成为研究热点,主要集中在

对数据描述的模型一致性、逻辑一致性和

关系一致性方面。目前的研究只是在小规

模的数据集上得到验证,还未有成功统一

描述PB级及以上数据的案例。因此,研究

基于RDF的数据描述框架,构建本体元

数据模型,并对其进行有效地分层描述,

解决格式各异的数据的统一描述问题,对

大数据的预处理十分关键。

(五)可视化技术。数据可视化是把数

据转换图形的过程。通过可视化技术,大

数据可以以图形图像、曲线甚至动画的方

式直观展现,使研究者观察和分析传统方

法难以总结的规律。可视化技术主要可以

分为图形技术、几何技术、图标技术、分层

技术等。无论哪种可视化技术,都需与扭

曲和交互技术相协同。针对海量、异构的

大数据,目前数据可视化研究的热点包

括:其一,层次可视化。Inxight公司成功将

Hyperbolictree层次数据处理技术用于

解决focus+context平滑过渡难题,并广泛

运用于图书分类和目录结构的应用。其

二,多维可视化。研究中心XcroxPalo

Alto提出多维可视化结构tablelens,由

于其对大型数据有很好的适应能力,已使

用到相关的产品中。其三,文档可视化。面

对纷繁复杂的文档、电子邮件等数据,西

太平洋国家实验室提出SPIRE可视化技

术,能高效地确定大型文档中文件间的关

系,对数据挖掘有极大的推动作用。其四,

web可视化。随着Internet的发展,web数

据持续膨胀,Chi等人成功地把7000多个

节点连接成一棵树形,运用网站可视化变

换技术,实时展现网站内容和访问量的变

化情况。可视化技术的研究和发展,是实

现大数据可视化的关键。

三、大数据的发展趋势

(一)大数据与云计算。为解决互联网

应用对大规模计算能力、数据存储能力的

迫切需求,云计算的概念被提出。云计算

是一种分布式计算平台,通过虚拟技术将

海量的硬件资源和虚拟资源虚拟成虚拟

资源池,并根据需求任务的大小,向虚拟

资源池获取相应的计算和存储资源。在大

数据处理的需求下,出现了许多优秀的云

计算平台,例如Apache开源的Hadoop、

Google的MapReduce、微软的Dryad等。在

处理格式多样的大数据时,云计算能协调

组织众节点,提供廉价的资源和服务,具

有较可靠的可扩展性和容错性。然而,对

于大规模复杂的应用系统来说,云计算还

有诸多的技术问题有待深入研究。为应对

数据密集型服务,云计算提供分布式并行

编程技术、分布式并行数据库技术,可通

过开源的编程接口和工具来调用服务,其

优势是能高效处理结构简单的大数据,但

对关系复杂的大数据的处理,在效率和准

确率方面还不能令人满意。

大数据技术的目标是解决应用中多

源、异构、海量数据的管理和使用问题,但

技术应用·职教实务

其本身不具备处理大规模数据的存储资源和计算资源的能力,因此必须在已有成熟的技术基础上,引入新的与之相对应的大数据存储和计算平台。云计算以数据为中心,对大数据集进行处理,并向用户返回高效服务,具有并行化、虚拟化、按需服务等特点。从数据管理角度来说,大数据技术是对数据组织结构的描述,研究重点是数据的查询、更新、索引等操作技术;而云计算则是一种分而治之,按需索取的大数据分布式服务模式。这两个概念提出的背景都是为满足海量异构数据的组织和管理要求。从相互之间的影响来看,前者为后者提供了广阔的应用背景,后者为前者数据管理提供了存储和计算资源,两者相互促进,相互依存。

(二)大数据与物联网。随着智能交通、智能家居、智能物流、智慧景区等应用的兴起,物联网已成为未来经济的新增长点。美国、德国、英国、意大利和丹麦等国家争先推出物联网相关发展策略,使物联网规模不断扩大。互联网到物联网的跨越,极大地推动了大数据的发展。物联网是指把所有物品通过信息传感设备与互联网连接起来,实现智能化识别和管理。它从结构上分为四层,即实体层、感知层、网络层和应用层。其每层都与数据的产生或者处理息息相关。大数据与物联网的结合是机遇与挑战并存。

首先,产生数据的平台多样化。从原来的个人电脑扩展为传感器、智能手机、各种业务系统、平板电脑、监控录像等,这使得感知层需要感知的数据呈现多样化。目前主流的感知技术有视频文字采集技术、红外线技术、传感器技术和蓝牙技术等,但随着感知的数据数量级的不断增加,相应的感知技术也要不断地改进和完善。其次,物联网技术的局限性。事物的发展需要一个过程,处于发展初始阶段的物联网还受到一些技术的约束。在大数据的传输和处理方面,物联网技术还存在通信距离短、外部环境适应力不强、异构网络兼容性差等问题。传感器链接的距离范围是100米到1000米,不适合长距离的通信;当外部的环境发生变化,传感器的稳定性能大幅度下降,对具有高性能计算存储系统的安全带来风险;物联网的标准是建立在广电网、通信网和互联网等异构网的基础之上,还没有统一完善的标准体系。

(三)大数据与数据空间。大数据来自

不同组织,它的跨域、分布、异构性以及海

量的特点给传统的数据库管理系统带来

巨大挑战,目前,管理着世界上最大数据

的谷歌、雅虎和微软等公司,都不使用传

统的数据管理系统,而是另辟蹊径去寻找

可以满足大数据管理需要的技术。M.

Franklin等人提出了数据空间的概念。数

据空间是M.Franklin等人为应对信息量

不断增长以及数据信息管理需求而引入

的一种信息管理新概念。

目前关于数据空间技术的研究主要

集中在个人数据空间方面,并取得了一定

成果。国外的研究工作主要以iMeMex和

SEMEx两个个人数据管理系统为代表。

iMeMex由瑞士联邦理工学院开发,它推

动了信息抽取和查询技术的进步,但缺点

是不支持语义查询;SEMEx由华盛顿大学

开发,成功把语义关联应用到实例中来高

效提取信息。同时,麻省理工学院计算机

科学系的DavidR.Karger等人研发了个人

数据管理系统Haystaek,该系统采用了

URF(UniformResourceIdentifier)半结构

化数据模型统一表示用户数据,体现了数

据空间“payasyougo”的数据集成思想。美

国华盛顿大学数据库研究组的shared-

views项目实现了名为Homeview的原型

系统,该系统能够支持个人动态数据的共

享,但数据的类型和共享方式有限。

在国内,数据空间技术已经开始受到

广泛关注。中国人民大学孟小峰教授等人

对数据空间的概念、实现数据空间支撑平

台所需的关键技术进行了详细的阐述与

分析,并带领中国人民大学网络与移动数

据管理实验室研究团队研发了具代表性

的个人数据空间原型系统orientsPac。在

综合考虑数据的模型、组织形式和分类方

法基础上,提出了与数据相关的eorespaee

模型和与任务相关的TaskSPace模型,但

该系统的不足之处是用户不能自己定义

关联。

综上所述,以物联网、云计算技术作

为数据收集、数据管理手段,用数据空间

技术来组织大数据,实现多层次、多粒度

的大数据挖掘,是处理大规模数据行之有

效的途径,也符合大数据管理和服务的

需求。

【参考文献】

[1]孟小峰,慈祥.大数据的管理:概念、

技术与挑战[J].计算机研究与发展,2013(1)

[2]王涛,余顺争.基于机器学习的网

络流量分类研究进展[J].小型微型计算机

系统,2012(5)

[3]袁平鹏,刘谱,张文娅,等.高可扩

展的R D F数据存储系统[J].计算机研究

与发展,2012(10)

[4]孙扬,封孝生,唐九阳.多维可视化

技术综述[J].计算机科学,2008(11)

[5]王鹏.走进云计算[M].北京:人民

邮电出版社,2009.

[6]宁焕生,徐群玉.全球物联网发展

及中国物联网建设若干思考[J].电子学报,

2010(11)

[7]A.H a le v y,M.Fra n k lin,a nd.M a ie r.

Pr inciples of D a t a sp a ce S y stem.T he

T w ent y-F ifth A C M S I GA C T-

S I G M O D-S I GA RT S y mposium on

Pr inciples of D a t aba se S y stems,I llinois,

A C M,2006:1-9

[8]J P.D itt r ich.A P l a tfo r m fo r P e r son a l

D a t a sp a ce M a n a g ement.S I G I R P I M

W o rk shop.P e r son a l I nfo r m a t ion

M a n a g ement-A S I G I R2006W o rk shop.

Se a ttle,C M.2006:40-43

[9]L.Blunschi.J P.D itt r ich,O R.G u ar d.

T he i M e M e x pe r son a l d a t a sp a ce

m a n a g ement s y stem.T hi r d Bienni a l

C onfe r ence on I nno v a ti v e

D a t a S y stems

R ese ar ch.A silom ar,A C M.2007:114-119

[10]K ar g e r D R,B ak shi K,H u y nh D,et

a l.A customi z a

b le g ene ra l-pu r pose

info r m a tion m a n a g ement tool fo r end use r s

of semist r uctu r ed d a t a.2nd Bienni a l

C onfe r ence on I nno v a ti v e

D a t a S y stems

R ese ar ch.A silom ar,A C M.2005:13-27

[11]R o x a n a G,M a g d a len a B,et a l.

H ome v ie w s:pee r-to-pee r middle w ar e fo r

pe r son a l d a t a sh ar in g a pplic a tions.26th A C M

S I G M O D-S I GA C T-S I GA RT S y mposium

on Pr inciples of D a t aba se S y stems.Bei j in g,

A C M.2007:235-246

[12]O r ientSp a ce[EB/OL].(2013-03

-05)[2013-03-05].http://id k e.r https://www.360docs.net/doc/068853286.html,/

O r ientSp a ce

(责编黎原)

职教实务·技术应用

相关文档
最新文档