大数据时代简析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据时代简析

杨雪萍

（华中师范大学信息管理学院湖北武汉 430079）

【摘要】随着全球信息量的爆炸式增长，“大数据”成为近几年的热点研究对象，本文将基于已有研究文献，并加之最新研究进展、应用成果，从“大数据”的概念、大数据的分析方法、大数据已应用的成功案例、大数据的挑战与展望等多方面进行全面的深入探讨。

【关键词】大数据；关系数据管理技术；MapReduce技术；HDFS；

1引言

1.1大数据产生背景

在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域，数据量正在以极快的速度增长，数据爆炸发生在可以想到的所有设备、应用程序及个体的各个层级上。根据Gartner公司的研究，全球信息量每年的最低增长率为59%，其中有15%是结构化数据，其余的则由复杂的数据类型组成。最近的一份报告显示，大数据将带动2012年全球280亿美元的IT支出，到2016年这个数字将超过2300亿美元，2300亿美元几乎是葡萄牙全年的国内生产总值。并且根据预测，数据量在未来10年内会增长44倍，但与此同时IT专职人员的数量仅会增长1.4倍。与此同时，在数据呈爆炸性增长的趋势下，IT还不得不承受节约相关资源及预算的重大压力。整个网络体系架构将面临革命性改变。最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。

大规模数据主要有以下几个主要来源【1】：（1）传感器数据(sensor data):分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据。即便对这些数据进行过滤,仅保留部分有效数据,长时间累积的数据量也是非常惊人的;(2) 网站点击流数据(click stream data):为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的服务;(3) 移动设备数据(mobile device data):通过移动电子设备包括移动电话和PDA、导航设备等,我们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的

分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统;(4) 射频ID 数据(RFID data):RFID 可以嵌入到产品中,实现物体的跟踪。一旦RFID 得到广泛的应用,将是大量数据的主要来源之一。

1.2大数据概念

维基百科、数据科学家以及一些研究机构和相关厂商，均提出过大数据的概念，虽未形成统一的定义，但是通过分析不同概念发现，它们之间都存在一个共识，即：大数据的关键是在种类繁多数量庞大的数据中，快速获取信息。大数据主要有以下四个特征（4V）。

（1）容量大（Volume Big）。数据量已经从TB（1012字节）发展至PB乃至ZB，可称海量、巨量乃至超量。

（2）多样性（Variable Type）。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。

（3）生成速度快（Velocity Fast）。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；处理工具亦在快速演进，软

件工程及人工智能等均可介入。

（4）价值高（Value High）。以视频安全监控为例，连续不断的监控流中，有重大价值者可能仅为一两秒的数据流；3600全方位视频监控的

“死角”处，可能会挖掘出最有价值的图像信息。

2 大数据分析技术

随着数据生成的自动化以及数据生成速度的加快，需要处理的数据量急剧膨胀，为了从数据中发现知识并加以利用，指导人们的决策，必须对数据进行深入的分析，而不仅仅是形成报表。下面介绍三种主要的大数据分析技术关系数据管理技术（RDBMS）、MapReduce技术以及关系数据管理技术和MapReduce的混合架构。

2.1 关系数据管理技术

关系数据管理技术（并行数据库）起源于20世纪80年代，经过了将近40年的发展，成为了一门成熟的、同时仍在不断演进的分析技术。关系数据管理技术的主流应用包括OLTP 应用、OLAP 应用以及数据仓库等。SQL 语言作为存取关系数据库系统的语言得到了标准化,经过不断扩充，其功能和表达能力不断增强。其

主要采用shared-nothing结构【1】，将关系表在节点间横向划分，并且利用优化器对执行过程进行调度和管理，其目标是高性能和高可用性。

2.1.1 关系数据管理技术的优势

并行数据库的最大优势在于性能【2】。这主要得益于数据库界近几十年的研究成果——许多先进的技术手段及算法, 如索引、数据压缩、物化视图、结果缓冲、I / O 共享、优化的数据连接等。但是在大数据时代, 如前言所述, 数据移动的实现方式将影响其性能。

并行数据库通过SQL 向外提供数据访问服务,SQ L 因其简单易用的特点而被广泛使用。因此, 大多BI 工具都支持基于标准SQL 的数据交互方式,使得关系数据库能较好地兼容当前多数BI 工具。某些数据库, 如IBM DB2 还针对一些BI 工具进行了优化。但在大数据分析面前, SQL 接口面临巨大挑战。SQL 的优势源于其对底层数据访问的封装, 但封装在一定程度上影响了其开放性。而且并行数据库提供的用户自定义函数大都是基于单数据库实例设计的, 从而不能在机群上并行执行, 也即意味着传统的实现方式不适合大数据的处理及分析。而且, 在并行数据库中实现用户自定义函数往往需要经过复杂的系统交互, 甚至要熟悉数据库的内部结构及系统调用等, 从而难以使用。

2.1.2 关系数据库的局限

关系数据管理技术在大数据时代将丧失互联网搜索这个机会，其主要原因是关系数据管理系统的扩展性遇到了前所未有的障碍，不能胜任大数据分析的要求。关系数据管理模型追求的是高度的一致性和正确性，在扩展性、容错性、成本、对异构环境的支持等几项上有所欠缺，当然其最大问题仍旧是扩展性。

面向超大数据的分析需求，纵向扩展（scale up）系统，即通过增加或者更换CPU、内存、硬盘以及扩展单个节点的能力，终将遇到瓶颈；横向扩展（scale out）系统，即通过增加计算节点连接成集群，并且改写软件，使之在集群上并行执行，才是经济的解决办法。使用大规模集群实现大数据的管理和分析,需要应对的挑战很多,其中,系统的可用性摆到了重要的位置。

总结而言，关系数据管理技术扩展性有限【1】主要因为如下几点：

（1）并行数据库软件级容错能力较差。并行数据库基于高端硬件设计, 并且假设查询失败属于稀有事件。因此当查询失败时, 一般采取重做查询的方式。而在