大数据的研究体系与现状

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据的研究体系与现状

引言

近年来，大数据迅速发展成为工业界、学术界甚至世界各国政府高度关注的热点。《自然(Nature)》和《科学(Science)》等杂志相继出版专刊来探讨大数据带来的挑战和机遇。著名管理咨询公司麦肯锡声称，“数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于大数据的挖掘和运用，预示着新一波生产力增长和消费者盈余浪潮的到来”。在这样的背景下，美国政府2012年宣布投资2亿美元启动“大数据研究和发展计划”，这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”，一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分，对数据的占有和控制将成为国家间和企业间新的争夺焦点。大数据已成为社会各界关注的新焦点，“大数据时代”已然来临。

与传统规模的数据工程相比，大数据的感知、获取、存储、表示、处理和服务都面临着巨大的挑战。这归因于大数据具有几个突出的特征：1)数据集合的规模不断扩大，已经从GB、TB再到PB，甚至已经开始以EB和ZB来计数。IDC的研究报告称，未来十年全球大数据将增加50倍，管理数据仓库的服务器数量将增加10倍以便适应这一增长。2)大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点，至2012年末，非结构化数据占有比例达到整个数据量的75%以上。3)产生速度快，处理能力要求高。根据IDC的“数字宇宙(Digital Universe)”报告，预计到2020年，全球数据使用量将达到35.2ZB，在如此海量的数据面前，处理数据的效率就是企业的生命。大数据往往以数据流的形式动态、快速地产生和演变，具有很强的时效性，只有把握好对数据流的掌控才能有效利用这些数据。4)数据真伪难辨，可靠性要求更严格。大数据的集合和高密度的测量将令“错误发现”的风险增长。斯坦福大学的统计学教授Trevor Hastie称，如果想要在庞大的数据“干草垛”中找到一根有意义的“针”，那么所将面临的问题就是“许多稻草看起来就像是针一样”。5)数据价值大，但密度低、挖掘难度大。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提取”成为目前大数据背景下亟待解决的难题。

大数据在带来挑战的同时，还蕴含着划时代的重大意义。特别是大数据时代对海量数据的积累、加工和利用能力将成为国力的新标志，大数据的深度分析和利用将对推动经济持续增长、提升国家的竞争力起到重要的作用。一个国家的数据主权将是继海、陆、空、天四个空间之后另一个大国博弈的空间。“十八大”报告中明确提出网络空间与深海、深空是我们国家核心利益的关

靳小龙王元卓程学旗

中国科学院计算技术研究所北京 100190

摘　要阐述大数据在基础理论与关键技术两个层面的重要研究问题，包括大数据复杂性的解析、大数据计算模型、多源异构大数据的融合与表示、大数据建模与理解等，并针对问题逐一简要介绍了相应的研究现状。

关键词大数据；数据复杂性；内容建模；语义理解

基金项目：国家973项目课题(2012CB316303、2013CB329602)；

国家自然科学基金重点项目(61232010)；国家自然科学基金面上项目

(61173008)；国家自然科学基金青年项目(61100175)

键领域。在大数据领域的落后，意味着产业战略制高点失守，更意味着国家安全将在数据空间出现漏洞。美国启动“大数据研究和发展计划”不仅是一个推动美国在高技术领域继续领先的战略计划，更是一个保护美国国家安全、推动社会经济发展的计划。以美国为代表的西方国家正在通过增强大数据领域竞争能力进一步提高自己的综合国力。可以预见未来国家之间的经济与政治竞争将是大数据引领的竞争。

1 大数据的研究体系

为了解决大数据带来的系列挑战，需要从基础理论与关键技术两个层面展开具体研究。在基础理论层面，需要对大数据的复杂性进行研究，并提出适合于大数据的新型计算模型；在关键技术层面，则需要研究多源异构大数据感知、融合与表示，大数据内容建模与语义理解，以及感知、存储与计算融合的大数据计算系统架构体系。

1.1 大数据复杂性的解析及大数据计算模型

大数据规模庞大、类型多样、关联复杂的特点导致传统全量数据计算模式不再适用，大数据计算面临基本模式的挑战。如何对大数据的复杂性深入解析，并在此基础上构建高效的大数据计算模型，成为大数据处理的核心问题。

1) 大数据复杂性规律发现。对大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理，简化大数据的表征，获取更好的知识抽象，指导大数据计算模型和算法的设计。具体则需要研究针对大数据的新型统计分析技术，解决传统统计与实证分析技术在处理极大规模网络数据时的可扩展性。同时对大数据中多模态关联的数据对象之间多维、异构、隐性的关联关系进行研究，基于统计猜想和大数据驱动相结合的方式，探索大数据复杂模式的生成机理及其背后的物理意义。最后，分析大数据在时空维度上的数据分布、内在结构和协作关联的复杂性规律，形成对大数据采样降维、抽象表达和优化计算的方法论。

2) 大数据复杂特征度量。大数据导致了时空维度上计算复杂度的激增，传统全量数据计算模式在面对大数据时基本不可行，亟需建立面向大数据计算的数据复杂度理论，探索不依赖于样本规模的大数据高效计算模型和方法。为此目的，需要研究异构关联的大数据中复杂特征的基本因素，分析这些因素的内在联系、外在指标和度量方法。进而研究面向计算的数据复杂性度量模型，定性和定量地衡量大数据的复杂程度，理清数据复杂度和计算复杂度的理论联系。此外，还需研究基于数据复杂度的近似计算理论和优化算法框架，以此指导人们寻找面向计算的数据内核或者数据边界的基本方法，形成大数据高效计算模型和方法设计的理论基石。

3) 大数据的计算模型。由于大数据往往呈现出异构多模态、复杂关联、动态涌现等特点，传统的科学假设以及模型理论已经无法有效分析和预测大数据内在的规律及其蕴含的真实价值。因此，需要重新定义和度量数据的可计算性，发展以数据为中心的大数据的计算理论，设计可靠的计算算法。具体而言，需要研究面对大数据的非确定性算法理论，突破传统统计学习中的“独立同分布”假设，研究非确定化、局部增量的学习理论，提出不依赖于全量数据的新型算法理论基础；研究大数据下以数据为中心的计算模式，突破传统的“数据围绕机器”式计算，构建“以数据为中心”的推送式计算模式，探索弱CAP约束的系统架构模型及其代数计算理论，研究分布化、流式计算算法，形成通讯、存储、计算融合优化的大数据计算框架。

1.2 多源异构大数据的感知、融合与表示

大数据应用关键的第一步是感知和融合数据并对其进行有效的表示。传统数据管理技术擅长处理结构统一、语义清楚、质量可靠的结构化数据，而大数据多源异构、良莠不齐、动态变化的特点使得感知、获取高质量数据并对其进行融合表示是一个非常具有挑战性的课题。因此，需要在核心方法与技术层面围绕大数据的可计算性和新型计算范式这一核心问题，在多源异构大数据的感知和获取、大数据的融合与质量控制以及大数据的图与张量表示等方面展开研究，以建立大数据准确高