大数据的研究方法及可能应用—王磊

大数据的研究方法及可能应用

王磊

【摘要】：如今，“大数据”已经成为了一个十分热门的词汇，新闻媒体对其进行长篇累牍的报道，与之相关的学术文章数量激增，大数据图书也受

到了极力的追捧。其实，随着以云计算、移动互联、智能化为特征的信

息社会的深入发展，人类储存的数据总量在不断增大，数据增长的速度

也在持续的加快中。维克托?迈尔?舍恩伯格也曾说过：“世界的本质是

数据，大数据将开启一次重大的时代转型。”社会生活的方方面面和我

们认识世界的方式都受到了大数据带来的冲击，但是，对于大数据的认

知和应用还有许多值得我们探索的地方。

【关键词】：大数据、数据挖掘、贝叶斯分类、图模型、协同推荐、客户价值、社会网络、文本挖掘

一、关于大数据

1、数据的海洋

20世纪90年代后期，以信息技术、计算机技术、网络技术等为代表的高新技术快速发展，以此为标志，人类社会正式迈入数字时代。现在，伴随着各种各样的智能设备和轻巧灵便的可穿戴计算设备的普及，我们

的行为、地理位置、收入与支出、身体生理状况等衣食住行的方方面面

都成为了可以被记录和分析的数据。数据量也就由此在不断增大，而且，数据的种类和形式也在持续的更新。可以说，我们的生活已经被日益增

长的数据所充斥。

事实上，各行各业都先后受到了数据增长带来的冲击。在天文学领域，2000年美国的斯隆数字巡天（Sloan Digital Sky Survey）项目启动，

位于美国新墨西哥州的大型天文望远镜在短短几周内收集到的数据已经

比天文学历史上总共收集到的数据还要多。到了2010年，天文望远镜收

集到的数据总量已经高达1.4×2^42字节。在生物学领域，2003年人类第一次破译人体基因密码，全世界的优秀科学家们辛苦工作了十年才完成了30亿对碱基对的排序。而到了现在，世界范围内的基因仪每15分钟就可以完成相同的工作。在金融领域，美国股市每天的成交量高达70亿股，更令人惊讶的是，其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。在互联网领域，Facebook这个创立时间不足十年的公司，每天更新的照片量超过1000万张，每天人们在网站上点击“喜欢（Like）”按钮或者写评论大约有三十亿次，这就为

Facebook公司挖掘用户喜好提供了大量的数据线索。[1] 总之，在各个领域都出现了爆发式增长的数据。这种增长的速度超过了我们创造任何一种机器的速度，甚至超过了我们的想象。

那么，我们周围究竟有多少数据呢？这些数据增长的速度又有多快呢？根据南加利福尼亚大学的统计学家马丁·希尔伯特（Martin Hilbert）的估算，在2007年人类大约存储了超过300艾字节（EB）的数据。[2]在这里，1艾字节（EB）等于2^60字节（B）。这是个什么概念呢？一部完整的电影总可以被压缩为1个吉字节（GB）的大小，而1个艾字节（EB）相当于10亿吉字节（GB），是一个非常巨大的单位。这就是说，2007年人类储存的数据总量超过了3000亿部电影的数据量。如果我们一天看一部这样的电影，需要近10亿年的时间才能看完！这还不是最为庞大的数字，2010年全球数据总量约为1.8泽字节（ZB），预计2020年全球数据总量将达到40泽字节（ZB）的规模。[3] 1个泽字节（ZB）是1024艾字节（EB），是比艾字节（EB）更为巨大的单位。由此可见，人类现在创造的数据总量是相当庞大的。不仅如此，人类存储数据的信息量的增长速度比世界经济的增长速度快4倍，而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。[4] 我们真的是被数据的海洋淹没了。

2、大数据的概念及特征

如此巨大和快速增长的数据量催生了大数据（Big Data）概念的产生。

大数据，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。[5] 从这个概念上看，大数据必然不能通过单台计算机进行处理，也不能使用传统的方法进行分析，必须依托于云计算这一先进的技术。同时，大数据具有4个基本特征。第一，数据体量巨大。

前文也已提及，现在数据总量已经达到EB级别，甚至达到了ZB级别。

第二，数据类型繁多，来源广泛。各种各样的网络文章、音频资料、视频资料、图片资料、地理位置信息等等都是数据的不同类型与来源。第三，价值密度低，商业价值高。体量如此巨大的数据不可能全部都是有用的信息，而这极少量的信息蕴含的价值往往是巨大的。以视频资料为例，公安机关在侦破刑事案件时通常需要调取案发现场的监控视频。而在连续不间断的监控过程中，有用的数据可能仅仅只有一两秒，而有时恰恰是这一两秒的数据就能帮助公安机关发现破案的蛛丝马迹。第四，增长速度快。正如前文所说，现如今数据增长的速度远远超过了世界经济增长的速度，而且这一速度还在不停地加快中。这就是所谓的大数据4V特征，即V olume（大量）、Velocity（高速）、Variety（多样）、Value （价值）。由此可见，大数据的核心问题是如何在种类繁多、体量巨大的数据中快速获取有价值的信息。[6]

3、大数据的意义

1）、公共卫生变革

2009年，甲型H1N1流感病毒爆发，牵动了全世界人民的心。与以往流感爆发的疫情不同，在这次疫情中，谷歌公司发布的数据代替习惯性滞后的官方数据成为了一个更有效、更及时的指示标，公共卫生机构的官员从谷歌公司获得了非常有价值的数据信息。实际上，谷歌公司获取疫情数据的方法是建立在大数据的基础之上的。

在如今的互联网时代，很多人在身体不适时，总会首先在网络上搜索与之相关的词条再决定是否去看医生。例如，如果我们出现咳嗽和发热的症状，或许我们会搜索“哪些是治疗咳嗽和发热的药物”这种词条。

于是，这种特殊的检索词条就会流露出流感侵袭的信息。而作为全球最

大的搜索引擎公司，谷歌公司每天都会收到超过30亿条的搜索指令，而且，谷歌公司保存了多年来的全部搜索记录。以此为基础，谷歌公司把疫情蔓延时5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较，如此这般分析人们的搜索记录就可判断这些人是否感染了流感病毒。

于是，谷歌公司通过观察人们在网络上的搜索记录成功预测了流感病毒的传播，而且不仅仅是美国范围内的传播，可以精确到特定的地区和州。不仅如此，谷歌公司的判断十分及时，不会像美国疾控中心那样在流感爆发一两周之后才可以做出判断。

谷歌公司的这种方法以前是一直被忽略的，也是一种前所未有的方式，这就是“通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见”。[7]拥有如此先进的统计技术和庞大的数据储备，我们有理由相信下一次流感来袭的时候，世界将会拥有一种更好的预测工具来预防流感的传播。

2）、商业变革

大数据不仅改变了公共卫生领域，商业领域也因为大数据发生了深刻的变化。

以购买飞机篇为例，美国计算机专家奥伦·埃奇奥尼（Oren Etzioni）专门开发了一个系统，用来预测当前的机票价格在未来的一段时间内是会上升还是下降。也就是说，这个系统需要分析所有特定航线机票的销售价格并确定机票价格与提前购买天数的关系。如果一张机票的平均价格呈下降趋势，系统就会帮助用户做出稍后再购票的明智选择。反过来，如果一张机票的平均价格呈上涨趋势，系统就会提醒用户立刻购买该机票。

埃奇奥尼的预测系统是十分成功的，帮助许多乘客节省了一笔不小的开支。当然，这个预测系统也是在大数据的基础上建立的，所以不可避免的是系统的运转需要海量数据的支持。埃奇奥尼找到了一个商业机会预订机票价格的数据库，而系统的预测结果是根据美国商业航空产业中，每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而

得出的。

基于这个机票价格预测系统，埃奇奥尼创立了一家大数据科技创业公司，名为Farecast。到目前为止，Farecast公司已经拥有了多达2000

亿条飞行数据记录，预测的准确度高达75%，而且使用Farecast票价预

测工具购买机票的旅客，平均每张机票可节省50美元。[8] Farecast公司

是大数据公司的一个缩影，也代表了当今世界发展的趋势。计算机的处

理能力和存储能力的大幅提升、数据分析能力的突破为大数据公司的出

现奠定了基础。

3）、思维变革

在大数据诞生以前，人们通常认为数据是静态的，而且一旦完成了收集数据的目的之后，数据就完全没有用处了。而到了现在，大数据的

出现改变了人们的认知，颠覆了人们利用数据的理念。数据已经成为了

“一种商业资本，一项重要的经济投入，可以创造新的经济利益”。而

且爆炸式增长的数据由量变引发了质变，大数据成为了“人们获得新的

认知、创造新的价值的源泉”；成为了“改变市场，改进组织机构，改

善政府与公民关系的方法”。大数据时代已经来临，大数据对我们的生

活，对整个世界都提出了挑战，而这仅仅只是一个开始。面对海量的数

据，我们不必关心数据间的因果关系，而应该更加注重相关关系。也就

是说，我们只需要知道“是什么”，而不需要知道“为什么”。这是一

个极为重大的改变，在不久的将来，或许我们的认知方式和理解世界的

基础都将因为大数据而受到不同程度的冲击。

二、大数据的研究与分析方法

1、数据挖掘

1）、数据挖掘的内涵与基本特征

1995年，法耶兹（Fayyad）在知识发现会议上第一次提出了数据挖掘（Data Mining）的概念，法耶兹认为数据挖掘是“一个自动或半自动

化的从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数

据模式的复杂过程”。

法耶兹的定义突出了数据挖掘的工程特征，阐释了数据挖掘是一种用于在海量数据中发现其中存在的有价值的数据模式的分析机制。其实，在技术的层面上，数据挖掘是网络时代必然的技术热点。在电子商务和互联网商业中，数据挖掘有着极为重大的应用价值。

数据挖掘就是解决各种实际问题的数据分析过程，而在通过大量数据解决实际问题的过程中，复杂问题的解决往往不是一两个数据模型的简单套用就可以完成的，经常需要很多步骤综合构成一个系统性的解决方案，需要多个模型协作完成。所以，对于数据挖掘来说，选择模型可能比应用模型更重要。而且，数据挖掘不仅仅是对数据的概括和归纳，更是数据中的复杂关系的发现过程。

2）、数据挖掘的产生

数据挖掘技术的产生是一个逐渐演变的过程。在数据处理初期，人们希望通过某些方法和技术实现自动决策，当时机器学习受到了人们的广泛关注。机器学习就是将人们已知的能够成功解决某一类问题的算法输入计算机，计算机便可以代替人类进行决策。[9]对于某一类特定的问题，机器学习可以总结出相应的解决规则，并且这种解决规则具有一定的通用性。20世纪70年代，神经网络技术正式形成并逐渐发展，随之非线性复杂结构应用到复杂数据关系的模型建立中。到了80年代，知识工程取代机器学习成为了人们关注的焦点。知识工程不同于机器学习，它是直接给计算机输入已被代码化的解决规则，计算机通过则利用这些规则来解决某些问题。[10] 80年代末期，全新的神经网络理论建立，在其指导下，人们重新回到机器学习的方法上，并利用机器学习处理大型商业数据库。在此背景下，一个新的术语“数据库中的知识发现”诞生了，简称KDD（Knowledge Discover in Database）。KDD概括了所有从源数据中发掘模式或联系的方法，人们也逐渐接受了数据挖掘的概念与过程。

3）、数据挖掘的功能

数据挖掘的核心任务是探索与建立数据的特征和数据与数据之间的关系。根据将要探索与建立的数据关系是否有目标，又可将数据挖掘

的功能分为有指导的学习（Supervised Learning）和无指导的学习（Unsupervised Learning）两大类。其中，有指导的学习是指对预设目标的概念学习和建模，主要由分类、估计和预测三方面的功能组成。[11]而无指导的学习是指寻找和刻画数据的概念结构，主要由关联关系发现、聚类分析、可视化三方面的功能组成。[12]

①分类（Classification）：

分类主要是用可能的特征变量通过对大量数据的分析和比较提炼出可辨识类别的显著不同的结构特征，即“获取一个概念区别于另一个概念的构成和表示”。具体来说，通过分析一部分数据库中的数据，可以将数据分成不同的类别。再为每个类别建立分类分析模型，然后利用这些分类分析模型对数据库中的其他数据记录进行分类。例如，对于信用卡申请者可以分为高、中、低三个类别。

②估计（Estimation）：

数据的估计是指描述由数据表达的未知概念的模型，并给出模型参数的估计方法并进行数值计算，或者得到模型的可靠性范围等。估计与分类类似，不同之处在于，分类描述的是离散型数据变量的模型，而估计处理连续型数据变量的模型。一般来说，估计可以作为分类的前一步工作。给定一些输入数据，通过估计，得到未知的连续变量的值，然后，根据预先设定的范围，进行分类。例如，可根据购买模式估计家庭的年收入，再根据年收入对不同的家庭进行分类。

③预测（Prediction）：

预测是指对尚未发生的、目前仍然不确定的事件或事物做出预先估计或表述，并通过对数据的处理与分析推测出事件或事物未来的发展趋势。分类和估计都可用于预测，其中分类强调不同规律的差异解释，估计则强调对未知规律通过数据表达的机制研究。但是，与分类和估计不同的是，预测更加注重数据的规律对未来的影响趋势。

④关联关系发现（Association Rules）：

关联关系发现则试图发现和提取研究对象之间通过数据表达的相互关系，其中的组合关联规则是要确定哪些事物会一起出现或发生。例如，

某超市中的客户通常在购买A商品的同时会购买B商品。

⑤聚类分析（Clustering）：

聚类分析主要提炼数据的相似性分组结构。聚类的目的是将相似的数据聚合在一起，而差异较大的数据分在不同的类中。在聚类中，没有事先确定好的组别，也没有样本，这与分类有着很大的区别。而且数据按照特征的相似性聚集在各自的类别中，对于数据的分析不仅要完成相似个体的聚合与分组，也要提炼出各个分组和类别内的数据中蕴含的意义。例如，一些特定症状的聚集可能代表了一种特定的疾病。

⑥可视化（Visualization）：

数据的可视化更加强调数据形象的展现方式。数据挖掘的首要目标往往是要深入理解复杂数据库的内容，而在开始时对数据准确的描述就可以帮助我们找到进一步解决问题的途径。例如，通过Yonghong Z-Suite 等工具进行数据的展现、分析和钻取，将数据挖掘的分析结果更形象、更深刻的展现出来。[13]

4）、数据挖掘的流程

①问题识别：

数据挖掘的目标就是要通过对数据的分析发现解决问题的方法，所以在问题识别阶段，首先要明确系统和组织中的关键问题。我们知道，大数据本身十分复杂，与之相关的实际问题也就极为复杂，在数据挖掘过程中必须牢牢抓住核心问题，把握问题的边界和本质，才能确定有效地数据挖掘方案。

②数据理解：

在数据挖掘过程中，显然确认研究的问题和现有的数据之间是否匹配是十分重要的。数据理解主要包含对数据价值的理解和对数据质量的理解两方面。我们知道，数据是一种特殊的资源，与物质产品相比，数据不可消耗。数据的价值存在于不同的系统不同的用户之间的传递和共享，而且在复制和更新的过程中，数据的价值可以得到提升。同时，数据也是极为脆弱的，也容易遭到破坏。数据的不一致性、重复太多、陈旧过时、不稳定等都是数据常见的质量问题。当然，在数据理解过程中，

我们也应了解数据格式和数据类型，了解数据的获取方式和异常数据的存在。

③数据准备：

在对数据进行分析之前，首先需要将数据汇集到一起，形成数据库。但是，在汇总数据时，多余数据以及数据格式与含义不一致的现象十分普遍。于是，将这些存在于不同环境中的或者存在于相对封闭的系统中的数据有机的结合在一起，实现数据资源的共享就是数据准备阶段的关键环节和主要任务。

用于数据准备的技术称为ETL技术，“ETL”是英文Extract，Transform和Load三个单词首字母的缩写，分别表示抽取、转换和装载三方面的数据处理技术。数据抽取就是将数据按照数据挖掘的项目主题从各种原始的数据系统中读取出来，这是数据挖掘所有工作的前提。然后进行数据转换，根据预先设计好的规则将数据进行转换，使得不同结构和格式的数据统一起来。最后是进行数据装载，将完成转换的数据导入到数据库中，完成数据整合的过程。

当然，汇集数据需要用到很多数据技术。对于复杂的数据格式，还需要利用编程语言的强大功能来实现数据的集成，也可以使用一些工具软件，例如SAS，SPSS，Ab Initio和PERL工具。

④建立模型：

数据建模是数据挖掘流程中最核心的环节，使用机器学习算法或统计方法对大量的数据进行建模分析，从而获得对数据系统最合适的模型。建立模型是一个反复的实验过程，需要仔细考察不同的模型和数据，以确定与待解决的问题最适合的数据模型。

⑤模型评价：

数据挖掘的模型评价包括功能性评价和服务性评价两方面的内容。其中，功能性评价是指建立的模型对任务完成的质量，常见的有精准性评价和稳定性评价。精准性评价主要衡量模型估计的准确性，而稳健性评价是对模型的抗干扰性和适应性进行评测。功能性评价中常用的两种方法是增益图法和ROC曲线法。除了技术性能的评价，服务的因素也不

容忽视。

⑥部署应用：

数据模型建立并且经过验证之后，有两种主要的途径。第一种用途是提供给分析人员做参考，通过察看和分析这个模型之后提出行动方案建议。第二种用途是将此模型应用到不同的数据集合上。

2、贝叶斯分类

贝叶斯分类（Bayes Classification）是统计学中的分类方法，其分析方法的特点是使用概率来表示所有形式的不确定性，学习和推理都要通过概率规则实现，[14]即利用概率统计知识进行分类。贝叶斯分类在机器学习领域中具有十分重要的地位，在处理数据时它的作用也是十分强大的。

在贝叶斯分类中，数据分类的问题转化为了分布的决策问题。贝叶斯分类也为分布的决策提供了两种产生分布函数的方法。第一种是分布估计法，即根据损失函数、先验分布和似然函数，通过后验分布，由最优决策产生分类函数。在样本连续和数据维度不高的情况下，正态分布下的线性判别和二次判别等方法是两个十分典型的方法。第二种是条件依赖关系估计法，针对数据变量是离散的而且维数较高的情况。如果变量之间存在少量的条件依赖关系，则利用条件依赖关系估计法进行分析可以获得高质量的估计结果，这种方法还可以用于分析变量之间的逻辑依赖关系。上面所说的两种方法或可称为朴素贝叶斯方法和贝叶斯网络方法。[15]

3、图模型

图模型（Graphic Models）用于刻画复杂数据系统中多个变量或不同的观测数据之间地关系，是提取高维数据的结构信息的重要工具。图模型的基本思想是通过揭示高维随机变量的相互依存关系刻画变量之间的条件独立性。在统计学中，图模型实质上就是用节点表示随机变量和用

弧表示条件独立假设的图。[16] 目前，图模型发展较快的主要有两个分支，一个是基于似然函数的惩罚算法，另一类是基于回归技术的算法。

1）、Graphical LASSO算法

Graphical LASSO算法是弗里德曼（Friedman）于2007年提出的，是在似然函数上增加惩罚算法进行图模型估计的方法。这种算法使用最

速下降的方法，速度较快。

2）、MB算法

MB算法是一种典型的回归算法。这种算法将图模型视为是由每个顶点对其他顶点做邻域选择时所产生的链接图的叠加。于是，在MB算法

中，每个顶点所占的比例相同，保证了各个顶点可以选择相同数量的与

之连通的边。MB算法实质上是从每个顶点最低链接需要的角度描述图

的一种方式。

3）、SPACE算法

SPACE算法是另一种典型的回归算法。该算法将稀疏图看成是对顶点实施不等权重影响导致的相对组合的一般形式。而其中的权重由一个

顶点的辐射强度在所有顶点辐射强度分布中的位置决定，一个顶点的辐

射强度是该顶点对其他顶点的偏相关系数之和，而辐射强度分布是所有

顶点辐射强度的分布。如果一个顶点的辐射强度较大，则该顶点分配较

大的权重，进一步可允许该顶点选择更多边与之连通。反之，如果一个

的辐射强度较小，则该顶点分配较小的权重，并限制该顶点选择与更多

边连通。

三、大数据的可能应用举例

1、客户关系管理

1）、协同推荐模型

伴随着互联网和电子商务的发展，数据及信息的体量已经远远超出人们的处理能力。及时为客户过滤不必要的项目是实现异构管理，有效

利用网络数据资源，提升整体数据处理性能的重要措施。推荐系统就是

一门专门面向客户的网络数据过滤技术，并向客户推荐适合的项目。系

统的核心就是推荐算法，主要有以下三种：

①人口统计学的推荐（Demographic-based Recommendation）

即根据系统客户的基本信息发现客户的相关程度。具体方法是对所有客户建立人口统计学（性别、年龄、职业等）的数据档案。例如寻找与甲客户的人口统计学特征相似的乙客户，由于甲、乙客户具有相同的人口统计学的特征，而认为甲、乙客户具有较高的关联度。于是，可将乙客户偏好的项目推荐给甲客户。这类推荐算法的优点是适用于冷启动问题，不足是推荐的精准度不高，因为仅仅在人口统计学的特征上给出推荐，而人口统计学的资料很难体现客户在项目需求上的差异。

②基于内容的推荐（Content-based Recommendation）

即根据所推荐项目的元数据，发现项目或者数据内容的相关性。例如甲项目的类型是“户外用品”，乙项目的类型也是“户外用品”，这两种项目具有相似性。如果某客户对甲项目产生兴趣，那么系统就会对其推荐乙项目。这种推荐算法需要对项目内的数据进行分析和建模，推荐的质量依赖于对项目描述的完整程度。一般应用中观察到的关键词和标签是描述项目元数据的简单而有效的方法。不足之处在于项目相似度的分析仅仅取决于项目本身的特征，未涉及客户个体差异对项目的态度。

③协同过滤的推荐（Collaborative Filtering Recommendation）

与传统的人口统计学和基于内容的过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似兴趣用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。协同过滤主要解决了传统算法在数据的稀缺性和项目数量较多的情况下的推荐项目问题。协同过滤推荐系统处理的数据问题包含两方面的变量——用户和选择条目，推荐的目标是预测用户对某些位置条目的评价。1992年，戈德堡（Goldberg）实现了第一个协同过滤推荐系统，戈德堡利用办公伙伴等与被推荐人有密切生活接触的人进行相似性推荐。现在，协同过滤推荐在信息过滤和电子商务行业得到了广泛应用，包括推荐书籍、酒店、电影、商业网站等。例如AMAZON网上书店提供非常先进的个性化推荐功能，能为不同兴趣爱好的用户自动推荐

尽量符合其兴趣需要的书籍。具体来说， AMAZON网上书店使用协同过滤推荐算法对读者曾经购买过的书籍以及该读者对其他书籍的评价进行分析后，将向读者推荐他可能喜欢的新书。而且读者的信息将被再次保存，这样顾客下次再来时就能更容易的买到想要的书籍。[17]

2）、客户价值模型

客户价值是衡量企业商业实力的重要标志，是发展客户关系和提高市场竞争力的基础。而随着企业数据收集和分析系统越来越强大，预测、识别和开发一位客户的终生价值的数据模型就称为了一个十分重要的课题。

与之相关的问题是怎样用数据衡量客户的价值。德怀尔（Dwyer）提出了一种系统模型计算客户价值。德怀尔将客户流失预测引入到客户价值分类模型中，并将客户划分为永久流失和暂时流失两部分。伯杰（Berger）和纳斯尔（Nasr）更进一步将客户按照流失划分为5类，并可以实现对每一类客户价值的计算。而休斯（Hughes）提出了基于行为变量的客户价值直接计算方法，这种方法使用3种指标——最近购买时间、购买频次和购买金额来分析客户的价值。以上三种指标是企业交易数据库都可以提取的信息。

2、社会网络分析

社会是一个十分复杂的系统，社会中的成员通过特定的关系形成一些团体，这些团体的存在形式、组成机理和影响关系是社会学关注的焦点。社会网络分析（Social Network Analysis）是观察社会关系和社会结构的研究方法。社会网络可以理解为社会群体之间的关系。

社会网络可分为两类。一类是接触型社会网络，适用于比较封闭的系统，具有总体数据量较小的特点，比如学校师生网络、公司董事网络等。另一类是通信类社会网络，具有总体数据量较大，关系不固定等特点，比如手机电话网络、微博、论坛等。接触类社会网络中群体的关系往往是预设的，而在通信类社会网络中，使我们感兴趣的常常不是预设的关系。但整体上说，这些关系都和网络的功能有密切关系。

1）、社群挖掘算法

网络社群是指社会网络中内部之间相互连接紧密，而与外部其他节点连接稀疏的一组节点。社会网络的研究重点就是认识和揭示网络特征，了解社群结构。目前，有大量的社群挖掘算法被提出。根据聚类的方式，社群挖掘算法大致上可以分为三类：层次聚类算法、最优化算法、块模型算法。

①层次聚类算法：

层次聚类算法的特点是需要计算节点之间的相似度。在得到了节点之间的相似度矩阵之后，就可利用常见的聚类算法对节点进行聚类。

②最优化算法：

最优化算法通过对社群质量的最优化达到社群挖掘的目的，比较常见的方法是基于模块值的算法。模块值为社会网络中连接社团结构内部节点的边所占的比例与另外一个随机网络中连接社团结构内部节点的边所占比例的期望值相减得到的差值。这个随机网络的构造方式为保持每个节点的社团属性不变，节点间的边根据节点的中心度随机连接。

③块模型算法：

块模型算法是通过假设社会网络满足某种统计分布，例如可假设在任意两点之间的边数服从泊松分布，进而通过极大似然方法的到网络的社群结构。

2）、模型评价

模型的评价有很多方式，例如来源于信息理论的归一互化信息（Normalized Mutual Information，NMI），数据挖掘与机器学习领域的校正随机指数（Adjusted Rand Index）等，其中归一互化信息在社群挖掘算法的评价中较为普遍。

3、自然语言模型和文本挖掘

早期的自然语言处理系统主要依靠语言学家撰写规则，机器编译规则，这种方法在大量知识面前显得既费时又费力，而且不能及时更新，各种语言之间彼此独立，无法兼顾不同语言的特点。20世纪80年代后

期，计算性能大幅提高，机器学习算法被引入到自然语言模型的处理中，这种方法采用大规模的训练语料数据对模型的参数进行自动的学习，和

之前的基于规则的方法相比，更具有稳定性，已经广泛用于文本分类和

机器学习等问题。如今，即便是语言学家也必须利用语料库提供的证据

和实例。例如，夸克（Quirk）等编著的《英语语法大全》就利用了语料

库中的数据。

数据统计语言模型的发展也刺激了文本挖掘的发展。文本挖掘是以计算语言学、数理统计分析为理论基础，结合机器学习和信息检索技术，从文本数据中发现和提取独立于用户信息需求的文本集中的隐含知识。

一般来说，文本挖掘利用文本切分技术，抽取文本特征，并利用数据特征降维等技术将文本数据转换为能够描述文本内容的结构化数据,

进一步可形成结构化模型表示树，从中提取出稳定结构，便可获取其中

的知识表示关系。目前，文本挖掘中的语言模型经历了4个发展阶段：

向量空间及统计语言模型、潜语义分析（LAS）、基于频率的模型到主

题模型的发展阶段。[18]

【参考文献】：

[1] （英）维克托·迈尔·舍恩伯格，肯尼思·库克耶. 大数据时代：生活、工作与思维的大变革. 周涛，盛杨燕译. 浙江：浙江人民出版社，2012.

[2] （英）维克托·迈尔·舍恩伯格，肯尼思·库克耶. 大数据时代：生活、工作与思维的大变革. 周涛，盛杨燕译. 浙江：浙江人民出版社，2012.

[3]王星等. 大数据分析：方法与应用. 北京：清华大学出版社，2013.

[4] （英）维克托·迈尔·舍恩伯格，肯尼思·库克耶. 大数据时代：生活、工作与思维的大变革. 周涛，盛杨燕译. 浙江：浙江人民出版社，2012.

[5]https://www.360docs.net/doc/ba17826472.html,/knows/search?q=%e5%a4%a7%e6%95%b0%e6%8d%ae&mkt=zh-cn&F ORM=BKACAI

[6]王星等. 大数据分析：方法与应用. 北京：清华大学出版社，2013.

[7] （英）维克托·迈尔·舍恩伯格，肯尼思·库克耶. 大数据时代：生活、工作与思维的大变革. 周涛，盛杨燕译. 浙江：浙江人民出版社，2012.

[8] （英）维克托·迈尔·舍恩伯格，肯尼思·库克耶. 大数据时代：生活、工作与思维的大变革. 周涛，盛杨燕译. 浙江：浙江人民出版社，2012.

[9] Ethem Alpaydim. 机器学习引论. 北京：机械工业出版社，2009.

[10]王星等. 大数据分析：方法与应用. 北京：清华大学出版社，2013.

[11]王星等. 大数据分析：方法与应用. 北京：清华大学出版社，2013.

[12]王星等. 大数据分析：方法与应用. 北京：清华大学出版社，2013.

[13]https://www.360docs.net/doc/ba17826472.html,/link?url=ukKbp64aCvRHvC-guknASzF9SAu8Nd1kkfknxxDbQ88fee P6m3kqrQ6z93wZg0Og7BDmplJvUvsYcthLtIjKuq

[14]https://www.360docs.net/doc/ba17826472.html,/view/3810699.htm

[15] 张连文，郭海鹏. 贝叶斯网络引论. 北京：科学出版社，2006.

[16] https://www.360docs.net/doc/ba17826472.html,/home.php?mod=space&uid=89075&do=blog&id=436803

[17]https://www.360docs.net/doc/ba17826472.html,/view/981360.htm

[18] 王星等. 大数据分析：方法与应用. 北京：清华大学出版社，2013.

大数据的研究与应用 (1)

毕业设计（论文）报告题目大数据的研究与应用二级学院物联网与软件技术学院专业物联网应用技术班级物联（单招）1601 学生姓名王龙学号100160869 指导教师杨晔 2019年3月

毕业论文（设计）承诺书本人郑重承诺： 1、本论文（设计）是在指导教师的指导下，查阅相关文献，进行分析研究，独立撰写而成的。 2、本论文（设计）中，所有实验、数据和有关材料均是真实的。 3、本论文（设计）中除引文和致谢的内容外，不包含其他人或机构已经撰写发表过的研究成果。 4、本论文（设计）如有剽窃他人研究成果的情况，一切后果自负。作者签名：签字日期：年月日

大数据的研究与应用摘要：现如今的21世纪，经济水平在不断的快速发展，大数据已经不是一个陌生的代名词，越来越多的存在于人们的视线中。无论是在人们日常的生活中，还是人们的衣食住行以及工作，都发挥着重大的用途。不了解的人可能觉得大数据只能运用在商业或者政府机构，实际上还适用于我们每一个人。在当今年代，伴随着计算机信息技术的不断发展，已经融入到了各种行业当中。随着网上的信息资源量的不断膨胀增加，此技术给人们带来方便的同时，由于它的复杂性质还是带来了一些用户使用的不方便。大数据的类型具有多样化的特征，能够进行多样化的数据存储以及分析功能，同时还能够捕获大量的信息资源进行存储和分析，这是传统的数据处理技术远远达不到的。本文正是进行研究我国大数据技术的发展现状和面临的挑战，并提出有效的发展策略，以至于可以为中国大数据技术的发展起到借鉴意义。关键词：大数据、价值、数据处理技术、多样化

Research and application of big data Abstract：With the rapid development of the 21st century, people should be quite familiar with the term "big data." Big data is also increasingly integrated into our daily lives. From our food and clothing to work, big data plays a very important role and role. Big data is not only for business and government, but for everyone in our lives. Nowadays, with the rapid development of computer information technology and Internet information technology, computer network technology has penetrated into all walks of life. The information resources on the network have exploded, and the use of Internet information technology has brought great convenience to our lives. The complexity of the information on the Internet has also caused great trouble to users. The data types in the era of big data are also more diverse. Traditional data processing techniques are difficult to meet the storage and analysis of diverse data. However, big data technology can effectively solve the problem of acquisition, storage and analysis of massive information. In-depth study of the development status and challenges of China's big data technology, and propose a targeted development strategy to provide reference for the development of China's big data technology. Key Words ：Big data、Value、Data processing technology、Diversification

大数据研究的科学价值

李国杰中国科学院计算技术研究所大数据研究的科学价值近年来，“大数据”已经成为科技界和企业界关注的热点。2012年3月，美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”，这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”，将“大数据研究”上升为国家意志，对未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分，对数据的占有和控制也将成为国家间和企业间新的争夺焦点。与大数据的经济价值相比，大数据研究的科学价值似乎还没有引起足够的重视。本文试图对基于大数据的科学研究（包括自然科学、工程科学和社会科学）谈几点粗浅的认识，希望引起有关领域科技人员的争鸣。推动大数据的动力主要是企业经济效益数据是与自然资源、人力资源一样重要的战略资源，隐含巨大的经济价值，已引起科技界和和企业界的高度重视。如果有效地组织和使用大数据，将对经济发展产生巨大的推动作用，孕育出前所未有的机遇。奥莱利（O ’Reilly ）公司断言：“数据是下一个‘Intel inside ’，未来属于将数据转换成产品的公司和人们。” 基因组学、蛋白组学、天体物理学和脑科学等都是以数据为中心的学科。这些领域的基础研究关键词：大数据　数据科学　第四范式产生的数据越来越多，例如，用电子显微镜重建大脑中的突触网络，1立方毫米大脑的图像数据就超过1PB 。但是，近年来大数据的飙升主要还是来自人们的日常生活，特别是互联网公司的服务。据IDC 公司统计，2011年全球被创建和被复制的数据总量为1.8ZB （1021），其中75%来自于个人（主要是图片、视频和音乐），远远超过人类有史以来所有印刷材料的数据总量（200PB ）。谷歌公司通过大规模集群和MapReduce 软件，每个月处理的数据量超过400PB ；百度每天大约要处理几十PB 数据；Facebook 注册用户超过10亿，每月上传的照片超过10亿张，每天生成300TB 以上的日志数据；淘宝网会员超过3.7亿，在线商品超过8.8亿，每天交易数千万笔，产生约20TB 数据；雅虎的总存储容量超过100PB 。传感网和物联网的蓬勃发展是大数据的又一推动力，各个城市的视频监控每时每刻都在采集巨量的流媒体数据。工业设备的监控也是大数据的重要来源。例如，劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控，每年传送PB 量级的数据。数据为王的大数据时代已经到来，战略需求也发生了重大转变：企业关注的重点转向数据，计算机行业正在转变为真正的信息行业，从追求计算速度转变为大数据处理能力，软件也将从编程为主转变为以数据为中心。采用大数据处理方法，生物制药、新材料研制生产的流程会发生革命性的变化，可以通过数据处理能力极高的计算机并行处理，同时进行大批量的仿真、比较和筛选，大大提高科研

大数据的概念、特征及其应用

马建光等：大数据的概念、特征及其应用 (2013-09-05 16:15:35) 转载▼ 分类：学习资料标签：杂谈大数据的概念、特征及其应用马建光，姜巍 (国防科技大学人文与社会科学学院，湖南长沙410074) 源自：国防科技2013年4月［摘要］随着互联网的飞速发展，特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用，以数量庞大，种类众多，时效性强为特征的非结构化数据不断涌现，数据的重要性愈发凸显，传统的数据存储、分析技术难以实时处理大量的非结构化信息，大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点，分别讨论大数据的典型的特征，分析大数据要解决的相关性分析、实时处理等核心问题，最后讨论大数据可能要面临的多种挑战。［关键词］大数据; 非结构化信息; 解决核心问题; 未来挑战一、引言自上古时代的结绳记事起，人类就开始用数据来表征自然和社会，伴随着科技和社会的发展进步，数据的数量不断增多，质量不断提高。工业革命以来，人类更加注重数据的作用，不同的行业先后确定了数据标准，并积累了大量的结构化数据，计算机和网络的兴起，大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来，随着互联网的快速发展，音频、文字、图片视频等半结构化、非结构化数据大量涌现，社交网络、物联网、云计算广泛应用，使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域，数据规模、数据种类正在以极快的速度增长，大数据时代已悄然降临。首先，全球数据量出现爆炸式增长，数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计［1］，即使在遭遇金融危机的2009 年，全球信息量也比2008 年增长了62%，达到80 万PB ( 1PB 等于10亿GB) ，到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB，) ，并且以每两年翻一番的速度飞速增长，预计到2020 年全球数据量总量将达到40 ZB，10年间增长20 倍以上，到2020 年，地球上人均数据预计将达5247GB。在数据规模急剧增长的同时，数据类型也越来越复杂，包括结构化数据、半结构化数据、非结构化数据等多种类型，其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。如此增长迅速、庞大繁杂的数据资源，给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务，与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题，得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年3 月22 日，奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”［2］，欲大力推

大数据技术及应用题库

大数据技术及应用题库单选题: 1从大量数据中提取知识的过程通常称为（A）。 a. . 数据挖掘 b. . 人工智能 c. . 数据清洗 d. . 数据仓库 2下列论据中，能够支撑“大数据无所不能”的观点的是（A）。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧 3数据仓库的最终目的是（D）。 a. . 收集业务需求 b. . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. . 为用户和业务部门提供决策支持 4大数据处理技术和传统的数据挖掘技术最大的区别是（A）。

a. . 处理速度快（秒级定律） b. . 算法种类更多 c. . 精度更高 d. . 更加智能化 5大数据的起源是（C）。 a. . 金融 b. . 电信 c. . 互联网 d. . 公共管理 6大数据不是要教机器像人一样思考。相反，它是（A）。 a. . 把数学算法运用到海量的数据上来预测事情发生的可能性 b. . 被视为人工智能的一部 c. . 被视为一种机器学习 d. . 预测与惩罚 7人与人之间沟通信息、传递信息的技术，这指的是（D）。 a. . 感测技术 b. . 微电子技术 c. . 计算机技术 d. . 通信技术

8数据清洗的方法不包括（D）。 a. . 缺失值处理 b. . 噪声数据清除 c. . 一致性检查 d. . 重复数据记录处理 9. 下列关于舍恩伯格对大数据特点的说法中，错误的是（D） A. 数据规模大 B. 数据类型多样 C. 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂，用现有的数据处理工具难以获取、整理、管理以及处理的数据，这指的是（D）。 a. . 富数据 b. . 贫数据 c. . 繁数据 d. . 大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的（D）。 a. . 新一代信息技术 b. . 新一代服务业态

16种常用数据分析方法

一、描述统计描述性统计是指运用制表和分类，图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充：常用方法：剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验：很多统计方法都要求数值服从或近似服从正态分布，所以之前需要进行正态性检验。常用方法：非参数检验的K-量检验、P-P图、Q-Q图、W 检验、动差法。二、假设检验 1、参数检验参数检验是在已知总体分布的条件下（一股要求总体服从正态分布）对一些主要的参数（如均值、百分数、方差、相关系数等）进行的检验。 1）U验使用条件：当样本含量n较大时，样本值符合正态分布 2）T检验使用条件：当样本含量n较小时，样本值符合正态分布 A 单样本t检验：推断该样本来自的总体均数卩与已知的某一总体均数卩0 （常为理论值或标准值）有无差别； B 配对样本t 检验：当总体均数未知时，且两个样本可以配对，同对中的两者在可能会影响处理效果的各种条件方面扱为相似； C 两独立样本t 检验：无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。适用情况：顺序类型的数据资料，这类数据的分布形态一般是未知的。 A 虽然是连续数据，但总体分布形态未知或者非正态； B 体分布虽然正态，数据也是连续类型，但样本容量极小，如10 以下；主要方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。三、信度分析检査测量的可信度，例如调查问卷的真实性。分类： 1、外在信度：不同时间测量时量表的一致性程度，常用方法重测信度 2、内在信度；每个量表是否测量到单一的概念，同时组成两表的内在体项一致性如何，常用方法分半信度。四、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表，可进行卡方检验，对于三维表，可作Mentel-Hanszel 分层分析列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。五、相关分析研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量； 2、复相关：三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以

大数据研究现状综述概要

大数据研究综述网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法. 文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望. 网络大数据的深挖掘、大规模利用是新兴产业界的立足点.即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效快速的处理、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,因为大数据从根本上来说就是来源于应用的问题。网络大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益。大数据近期发展: 1.网络空间感知与数据表示 2.网络大数据存储与管理体系 3.网络数据挖掘 4.社会计算以及网络数据平台系统与应用以上四点见:网络大数据:现状与展望第3,4,5,6节作者:王元卓2013年

5.在大数据处理中,应用云计算技术,促进大数据处理系统的功能多样化。见: 讨论云计算技术下的大数据处理系统任量2014年

大数据应用分析案例分析

大数据应用与案例分析当下，”大数据”几乎是每个IT人都在谈论的一个词汇，不单单是时代发展的趋势，也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据，不单单可以进行智能化的决策，还可以在竞争激烈的行业当中脱颖而出，所以对于大数据的战略布局让越来越多的企业引起了重视，并重新定义了自己的在行业的核心竞争。在当前的互联网领域，大数据的应用已十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。以下是关于各行各业，不同的组织机构在大数据方面的应用的案例，并在此基础上作简单的梳理和分类。一、大数据应用案例之：医疗行业 Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，

通过大数据处理，更好地分析病人的信息。在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。二、大数据应用案例之：能源行业智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。有了这个预测后，就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。通过这个预测后，可以降低采购成本。维斯塔斯风力系统，依靠的是BigInsights软件和IBM超级计算机，然后对气象数据进行分析，找出安装风力涡轮机和整个风电场最佳的地点。利用大数据，以往需要数周的分析工作，现在仅需要不足1小时便可完成。

大数据技术及应用.doc

A:2015 年 8 月 31 日：《促进大数据发展行动纲要》B: 2015 年 12 月 29 日：《“互联网＋”行动的指导意见》C: 2017 年 7 月 8 日：《新一代人工智能发展规划》D: 2017年4月10日：《云计算发展三年行动计划（2017－ 2019 年）》E: 2015 年5 月 8 日：《中国制造2025》 2.【判断题】人工采集效率低、成本高、错误多。自动化采集靠技术实现，效率高、采集的数据量大。对错 3.【多选题】数据资源向信息、知识、价值转换的流程可以概括成 5 个环节：（）（）（）（）（）正确答案:[A,B,C,D] A:数据采集B:数据存储C: 数据处理D: 数据分析与挖掘E: 知识应用 4.【判断题】由于数据采集都是在多点进行的，数据存储也从传统中央磁盘存储变成分布式云存储。云存储的优点是容量大、费用低。对错

5.【判断题】数据是所表达的对象或事件的信息的载体，记录了对象的属性特征。对错 6.【多选题】数据采集可以划分为（）和（）。 A: 人工采集B:自动化采集 7.【多选题】大数据有 3 个显著的特征： A:数据规模大B:数据变化快C:数据类型复杂 8.【多选题】大数据时代是（）（）（）（） 4 大技术领域齐头并进发展的时代，也可称作“大智移云”时代。 A:大数据B:人工智能C: 移动互联网（或物联网）云计算

9.【判断题】目前大数据存储的另一趋势是向数据中心集中，以便于大数据的管理、集成和综合分析。对错 10.【多选题】大数据的产生是由于信息技术及应用的不断发展和进步的几个阶段： A: 从信息系统应用的发展来看，80 年ERP系统用于企业管理，数据规模在MB；B: 90 年度信息技术用于客户管理，即CRM 系统，数据规模达到GB 级；C: 2000 年互联网时代的Web技术使企业数据达到TB级；D: 近年来，互联网+物联网在企业中应用使数据达到PB级

大数据研究综述

————————————————————————————————作者：————————————————————————————————日期： ?

大数据研究综述摘要：从大数据基本理论，大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点，重点比较当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进行展望。关键词：大数据,综述，数据处理,数据挖掘引言现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词，在1９80年，，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮的华彩乐章”。在２0 世纪 8０年代我国已经有一些专家学者谈到了海量数据的加工和管理，但是由于计算机技术和网络技术的限制大数据未能引起足够的重视，它蕴藏的巨大信息资源也暂时隐藏了起来。随着云计算技术的发展，互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速发展，以及以智能手机、平板电脑为代表的新型移动设备的出现，计算机应用产生的数据量呈现了爆炸性增长的趋势。２01２年末出版的《大数据时代》的作者英国牛津大学网络学院互联网研究所治理与监管专业教授维克托·尔耶·舍恩伯格在书的引言中说,大数据正在改变人们的生活以及理解世界的方式, 而更多的改变正蓄势待发。美国总统奥巴马的成功竞选及连任的背后都有大数据挖掘的支撑,美国政府认为，大数据是“未来的新石油”,并将对大数据的研究上升为国家意志，这对未来的科技与经济发展必将带来深远影响［1］。如今，大数据已成为一项业务上优先考虑的工作任务，因为它能够对全球整合经济时代的商务产生深远的影响。大数据的应用范围如此广泛，与大数据相关的很多问题都引起了专家和学者的重视。大数据最基本的问题－大数据的定义目前还没有一个统一的定论,但大数据作为一种基础性资源需要被处理才能显现其潜在的价值，那么如何更好地处理大数据这种基础性资源就显得特别重要，因为这些问题都关系到大数据核心价值的体现。为此,本文从大数据若干个版本的概念出发,调查分析了大数据的研究和应用现状，重点分析了当前主流的大数据处理工具和技术,最后预测了大数据未来

大数据技术研究综述

大数据技术研究综述摘要：大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术，归纳总结了大数据处理的一般流程，针对其中的关键技术，如MapReduce、GFS、Hadoop以及NoSQL等，介绍了基本的情况。最后，本文对大数据时代做了总结与展望。关键词：大数据；数据处理技术；云计算

当人们还在津津乐道云计算、物联网等主题时，一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命，对国家治理模式、企业决策、组织和业务流程，以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值，将是未来IT 领域最大的市场机遇之一，其作用堪称又一次工业革命[1]。我们身处数据的海洋，几乎所有事物都与数据有关，环境、金融、医疗……我们每天都在产生数据，打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源，引起了科技界和企业界的高度重视。 1大数据的概念大数据本身就是一个很抽象的概念，提及大数据很多人也只能从数据量上去感知大数据的规模，如：百度每天大约要处理几十PB 的数据；Facebook 每天生成300 TB以上的日志数据；据著名咨询公司IDC 的统计，2011年全球被创建和复制的数据总量为1.8 ZB(1021) ，但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中，大数据被定义为“代表着人类认知过程的进步，数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。大数据不是一种新技术，也不是一种新产品，而是一种新现象，是近来研究的一个技术热点。大数据具有以下4个特点，即4个“V”： (1) 数据体量(V olumes) 巨大。大型数据集，从TB级别，跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源，数据种类和格式冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求，1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

大数据技术与应用专业讲课稿

大数据技术与应用专业建设方案北京四合天地科技有限公司 2018年6月

目录 1项目背景 (4) 1.1行业背景 (4) 1.2政策导向 (5) 2人才培养方案 (6) 2.1行业人才需求 (6) 2.2大数据岗位设置 (9) 2.2.1Hadoop运维工程师 (9) 2.2.2大数据开发工程师 (9) 2.2.3数据采集工程师 (10) 2.2.4系统开发工程师 (11) 2.3大数据人才基本技能要求 (11) 2.4人才培养目标 (12) 2.5人才培养策略 (12) 3教学现状分析 (13) 3.1教学科研难以保证 (13) 3.2实训环境缺失 (13) 3.3实训内容不足 (13) 4课程体系建设 (14) 4.1培养目标 (14) 4.2课程设置 (14) 5实训室建设 ............................................................................................... 错误!未定义书签。 5.1设计理念..................................................................................................... 错误!未定义书签。 5.1.1以就业为导向...................................................................................... 错误!未定义书签。 5.1.2以能力为本.......................................................................................... 错误!未定义书签。

16种常用的数据分析方法汇总

C 两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。适用情况：顺序类型的数据资料，这类数据的分布形态一般是未知的。 A 虽然是连续数据，但总体分布形态未知或者非正态； B 体分布虽然正态，数据也是连续类型，但样本容量极小，如10以下；主要方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。三、信度分析检査测量的可信度，例如调查问卷的真实性。分类： 1、外在信度：不同时间测量时量表的一致性程度，常用方法重测信度 2、内在信度；每个量表是否测量到单一的概念，同时组成两表的内在体项一致性如何，常用方法分半信度。四、列联表分析用于分析离散变量或定型变量之间是否存在相关。

“大数据”技术在工控行业中的应用研究

《自动化博览》杂志约稿 “大数据”技术在工控行业中的应用研究中国自动化学会专家咨询工作委员会孙柏林 “大数据”时代的脚步已悄然而至，“大数据”（Big Data）已迅速成为近期争相传诵的热门科技概念。未来的十年将是一个“大数据”引领的智慧科技的时代。专家们认为：“‘大数据’技术就是下一个经济、国防、安全、社会活动等领域的制高点！”“大数据”是继云计算、物联网之后信息技术领域的又一热点，“大数据”时代的来临，给各行各业带来了根本性变革，让所有人都看到了“大数据”的挑战与机会。对于工业控制行业同样也是如此。本文即从《“大数据”技术及其在工控行业中的应用研究》的角度来探讨一下“大数据”技术问题。一、吹响大数据“集结号”！ “大数据”（Big Data）这所以会成为热点，主要应归因于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、射频识别技术（RFID）、无线传感器每分每秒都在产生着成千上亿的数据，数以亿计用户的互联网服务时时刻刻都在产生巨量的数据，需要处理的数据量实在是太多、增长实在是太快了，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求，传统的常规技术手段根本无法应对“大数据”浪潮。国际数据公司（IDC-- International Data Corporation）预计，大量新数据无时不刻不在涌现，它们以每年50%的速度在增长，或者说每两年就要翻一番多。人类社会发展的核心驱动力，目前，已由“动力驱动”转变为“数据驱动”；经济活动重点，已从材料的使用转移到“大数据”的使用。“大数据”正在成为各个业界的焦点话题。2012年1月，在瑞士达沃斯举行的世界经济论坛上，“大数据”是框定的主题之一。该论坛的一份报告，《大数据，大影响》，宣告了“大数据时代”的到来！今天已经进入“大数据”时代，身边的一切都在“大数据”范围内。人们似乎再也没有什么秘密可言，各种信息都暴露在“大数据”之中。“大数据”几乎是无处不在。传统行业创新升级，“大数据”成背后推手！企业必须直面“大数据”的挑战。二、关于“大数据”的基本认识㈠“大数据”的定义什么是“大数据”？从一般意义上说，“大数据”是指那些超过传统数据库

互联网大数据在城市规划中的应用研究

2019年10月'设计互联网大数据在城市规划中的应用研究祝连鹏（山东省城乡规划设计研究院，山东济南250013）［摘要］随着社会的进步和信息化的迅速发展，科技发达，信息流通，大数据与规划结合越来越紧密，在城市的方方面面都有极大的应用价值。本文从大数据的来源、价值和与城市规划诸多方面相结合角度，综合阐述了互联网大数据与城市规划的深层次应用。［关键词］互联网大数据;城市规划；大数据与城市规划文章编号：2095-4085（2019）10-0047-02 随着互联网和信息化技术的发展，特别是大数据挖掘技术的进步，获取各行业各类型的数据变得更加容易，大数据拥有以下几个特征。（1）海量的数据规模。（2）快速的数据流转和动态的数据体系。（3）多样的数据类型。（4）巨大的数据价值。而这恰恰是城市规划行业所需的，城市规划可以利用各种信息技术和大数据，以整合，系统的方式管理城市的运行，使得整个城市的各种因素能够互相补充互相配合，为城市将来的发展提供更好的空间，最终目的是为市民提供最为优质的服务和生活体验。 1大数据的在规划中的应用价值大数据为城市规划提供了改革性的发展机会，随着城市规划的发展，各种类型的大数据为我们提供了新的视角观察城市、分析和研究城市，互联网大数据⑴对于一些政府、规划局、规划院以及其他研究机构来说都是巨大的宝藏，它能够从另外一个独特的角度，用具体的数据分析挖掘出来所需的条件，例如在公共服务，人口，交通，公共设施等各领域。大数据时代的发展，对传统的城市规划造成了巨大的冲击,但是同时也带来了不可想象的机遇和发展，逼迫城市规划开始转型和改变方法，使之更加科学。 2城市规划中遇到的问题城市规划在发展中，遇到了一系列的问题，例如传统的城市规划数据来源主要是统计年鉴，行业统计资料，社会调查，深度访谈，遥感影像，这些传统的数据来源，有以下几个缺点。（1）是不及时性。统计年鉴和行业资料往往是历史资料，并不能准确的实时的反映现实问题。（2）是主观性经验性。通过社会调查，深度访谈等方式，获取到的资料具有一定的主观性和经验性，并且样本数据较小，扩样后难免失真。（3）是获取困难。有些数据因各种原因需要层层申请，或者干脆就无法获取到。（4）是信息孤岛。基金项目:山东省住房城乡建设科技计划项目《大数据在城市总体规划编制中的应用方法研究）（2018-K2 -04）成果一个部门或者大型垄断互联网公司拥有的信息，往往不共享，就形成了信息孤岛。（5）是资源浪费。（6）是重复建设。 3大数据在城市规划各领域中的应用方法3.1区域（城镇体系）规划方法传统的区域规划，主要包括经济总体概况，产业发展特色，人口情况，区域空间，资源分布，生态环境等方面，在区位或资源条件特色等优势，区域发展问题和瓶颈，国际经验与国内重大政策机遇，要素转移或技术创新等遇到了挑战。大数据时代给区域规划带来了新方法新理念，通过大数据分析，可以在资源分配，人口流动，社会文化，生态环境，交通出行等方面给出更为全面和科学的指导。例如通过微博文本和用户位置数据，论坛网站的用户评论数据，政府网站政策文件数据等数据来进行分析，利用数据清洗，关键词确定，词频分析,空间可视化等技术展现出来。 3.2城市总体规划方法传统的城市总体规划在人口规模预测方面，往往是通过城市历年人口统计数据，结合城市政府诉求和未来城镇化发展目标，运用多种预测模型综合确定规划期末城市总人口，一般是利用历年各城市人口统计数据。自然增长法，产业集聚，区位法，环境容量法，类比分析法等基于多种模型的综合预测，属于经验主义方法。大数据可以通过挖掘微博数据，政府网站数据,论坛等数据，来分析和解决功能空间布局，公共服务效率，社会空间分异，生态环境保护等方面的问题,为“多规合一”的全面布局和落实提供了新的参考,思路，方法和方案。 3.3城市控制性详细规划方法传统的控规方法在地块控制与容量指标规划，城市各类专项规划等方面都存在一定的缺点，即经验主义。大数据时代给城市控制性详细规划带来了新方法新理念，例如可以利用基于微博签到和文本数据的街道尺度城市用地判别，对微博位置数据分析界定活动

大数据技术在网络招聘中的应用研究

大数据技术在网络招聘中的应用研究摘要：经济社会的不断发展，带动了科学技术的不断发展，信息时代已经在不知不觉中到来，信息时代的到来，推动了社会各界的发展，提高了各个行业的工作效率，越来越多的行业实现了信息化、自动化的生产。而在企业对员工进行招聘的过程中，也逐渐开始采用信息化的形式，本文将以XX企业为例，对大数据技术在网络招聘中的应用进行全面的分析和研究，希望能对有关企业开展相关工作时能起到借鉴性的作用。关键词：大数据技术；网络招聘；应用；研究信息时代的到来，使得网络招聘成为现今企业进行招聘工作中最常用的招聘手段，但是，在大数据下所产生的大量的数据，并没有得到企业的重视和合理的应用，这样的现象产生，会造成企业在对候选人进行筛选工作时的工作效率降低，并且也不能有效的将员工放在适合其发展的岗位上。本文将对XX企业在运用网络招聘中，对大数据的处理工作进行分析。以此来提高大数据的应用率，从而促进企业的发展。 1 大数据处理流程大数据的处理流程首先是对数据进行采集，大数据的一个大字，就体现了数据量的庞大，和数据种类的复杂，鉴于

大数据的这种特点，对数据的收集工作就是大数据进行工作的第一步，并且是最基础的一部分，对数据的收集工作是通过各种方式来进行。第二步是对收集到的数据进行处理工作，把不需要的数据进行剔除，留下需要的数据进行统一的储存工作。第三步是对这些收集到并进行储存的数据，进行进一步的分析，对数据进行分析的工作是大数据工作中最核心的工作内容，在这个工作的过程中，可以对数据的价值进行发现[1]。最后一步是对数据进行解释的工作，通常对数据的解释，都是通过最简单易懂的方式来实现，这样的分析结果会使受众观察起来会比较方便。 2 招聘流程的改进（一）对数据源的扩展在企业传统的网上招聘的过程中，企业只是会把招聘信息在本企业的网站上进行公布，然后等待求职者，来主动的投递简历，这样的网络招聘方式，使企业和求职者之间缺乏有效的沟通，所以人事部就会根据简历上比较死板的条件对求职者进行选择，这样降低了企业对人才进行选择的机会，也降低了求职者对企业进行选择的机会。为了改变这种存在的不利现象，XX企业在已有的网站平台上，又对社交化的招聘平台进行了搭建工作。企业在具体的操作过程中，首先是在一些比较大的网站进行了企业自身网站的注册，并在这些网站上，定时的发布一些有关的招聘信息，运用这种招聘手

国内外大数据经典案例研究

大数据时代的来临使得产生的数据量呈爆炸式增长，各行各业均面临着海量数据的分析、处理问题。如何运用大数据技术从海量数据中挖掘出有价值的信息，将是今后企业发展的一个巨大挑战。点评收集研究了国内外大数据应用的经典案例，希望可以对读者有所启示。 1、塔吉特百货孕妇营销分析最早关于大数据的故事发生在美国第二大超市塔吉特百货。孕妇对零售商来说是个含金量很高的顾客群体，但是她们一般会去专门的孕妇商店。人们一提起塔吉特，往往想到的都是日常生活用品，却忽视了塔吉特有孕妇需要的一切。在美国，出生记录是公开的，等孩子出生了，新生儿母亲就会被铺天盖地的产品优惠广告包围，那时候再行动就晚了，因此必须赶在孕妇怀孕前期就行动起来。塔吉特的顾客数据分析部门发现，怀孕的妇女一般在怀孕第三个月的时候会购买很多无香乳液。几个月后，她们会购买镁、钙、锌等营养补充剂。根据数据分析部门提供的模型，塔吉特制订了全新的广告营销方案，在孕期的每个阶段给客户寄送相应的优惠券。结果，孕期用品销售呈现了爆炸性的增长。2002年到2010年间，塔吉特的销售额从440亿美元增长到了670亿美元。大数据的巨大威力轰动了全美。点评：这个案例说明大数据在企业营销上的成功，利用大数据技术分析客户消费习惯，判断其消费需求，从而进行精确营销。这种营销方式的关键在于其时机的把握上，要正好在客户有相关需求时才进行营销活动，这样才能保证较高的成功率。 2、沃尔玛“啤酒加尿布”经典案例总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛拥有世界上最

大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析。沃尔玛数据仓库里集中了其各门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘，可以很轻松地知道顾客经常一起购买的商品有哪些。一个意外的发现是：“跟尿布一起购买最多的商品竟是啤酒！” 这是数据挖掘技术对历史数据进行分析的结果，反映数据内在的规律。沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析，经过大量实际调查和分析，揭示了隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。既然尿布与啤酒一起被购买的机会很多，于是沃尔玛就在其一个个门店将尿布与啤酒摆放在一起，结果是尿布与啤酒的销售量双双增长。点评：无论“啤酒加尿布”仅仅是一个传说，还是一个真的发生过，它都已经成为大数据技术应用的一个经典案例。这个故事的意义在于将看似不相关的商品数据放在一起进行分析，找到他们之间的相关性，从而进行交叉营销，促进商品的销量。这种思维方式才是成功的关键。 3、试衣间的大数据应用传统奢侈品牌PRADA正在向大数据时代迈进。她在纽约及一些旗舰店里开始了大数据时代行动。在纽约旗舰店里，每件衣服上都有RFID码，每当顾客拿起衣服进试衣间时，这件衣服上的RFID会被自动识别，试衣间里的屏幕会自动

大数据技术原理与应用林子雨版课后习题答案

第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容。 2.试述数据产生方式经历的几个阶段答：运营式系统阶段，用户原创内容阶段，感知式系统阶段。 3.试述大数据的4个基本特征答：数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数据爆炸”的特性答：大数据时代的“数据爆炸”的特性是，人类社会产生的数据一致都以每年50%的速度增长，也就是说，每两年增加一倍。 5.数据研究经历了哪4个阶段？

答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非精确，相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别答：数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力，能结合历史数据和实时数据实现查询分析和自动规则触发，从而提供对战略决策和战术决策。大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。 8.举例说明大数据的基本应用答： 9.举例说明大数据的关键技术

答：批处理计算，流计算，图计算，查询分析计算 10.大数据产业包含哪些关键技术。答：IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11.定义并解释以下术语：云计算、物联网答：云计算：云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起，形成人与物、物与物相连，实现信息化和远程管理控制。 12.详细阐述大数据、云计算和物联网三者之间的区别与联系。