普开数据马延辉：大数据的四大特征

大数据的四大特征

1.数据量大(Volume)

第一个特征是数据量大。大数据的起始计量单位至少是

P(1000个T)、E(100万个T)或Z(10亿个T)。

2.类型繁多(Variety)

第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

3.价值密度低(Value)

第三个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。

4.速度快时效高(Velocity)

第四个特征是处理速度快，时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线，已经无法高效处理如此海量的数据，而对于相关组织来说，如果投入巨大采集的信息无法通过及时处理反馈有效信息，

那将是得不偿失的。可以说，大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据的基本特点

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。随着云时代的来临，大数据也吸引了越来越多的关注。那么，大数据的基本特点有哪些呢？首先是体量巨大，种类繁多。互联网搜索的发展、电子商务交易平台的覆盖和微博等社交网站的兴起，产生了无穷无尽的各种数据内容。数据类型日益繁多，例如视频、文字、图片、符号等各种信息，发掘这些形态各不相同的数据流之间的相关性是大数据的最大优点。比如供水系统数据与交通状况比较可以发现清晨洗浴和早高峰的时间密切相关，电网运行数据和堵车时间地点有相关性，交通事故率关联睡眠质量等。其次是开放公开，容易获得。大数据不仅存在于特定的政府机构和企业组织，而是社会生活生产过程中自动产生存储的。电信公司积累客户的电话沟通记录，电子商务网站整合消费者的各种信息，企业通过挖掘海量数据可以增强自身能力，改善运营服务，提供决策支持，

实现商业智能进而为企业带来高额经济效益回报，发现企业发展的特殊规律。例如在今天，越来越多的商业组织和政府机构大量组织收集微博上的海量信息，分析个人特征和属性标签，预测社会舆情、电影票房或者商业机会。开放公开容易获得的数据源成为大数据时代的基本特征，产生巨大的社会影响。再次是重视社会预测。预测是大数据的本质特征。在大数据时代，预见行业未来的能力成为企业追求的目标。最近美国Netflix公司推出《纸牌屋》，即通过采集其3000万用户的播放动作，包括打开、暂停、快进、倒退等动作，分析其注册用户的几百万次评级与搜索。最后是重视发现而非实证。大数据则重视数据，创造知识，预测前景，探索未知，关注现象，发现机遇。预见未来依靠自下而上的数据收集处理，不依赖理论假设的前提下去发现知识，预知未来，洞察趋势，找到规律。例如沃尔玛超市经过大数据技术分析海量交易数据，察觉周末如果男人买婴儿尿布的同时会顺便买啤酒的独特现象。通常数据挖掘不做刻板假设，具有未知性，但结果有效并且实用。以上就是全部内容，希望对大家有所帮助，感谢您的阅读！

大数据复习提纲

1、线性判别函数的正负和数值大小的几何意义正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。 2、感知器算法特点收敛性：经过算法的有限次迭代运算后，求出了一个使所有样本都能正确分类的W，则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。感知器算法只对线性可分样本有收敛的解，对非线性可分样本集会造成训练过程的震荡，这也是它的缺点。 3、聂曼-皮尔逊判决准则、最小最大判决准则等区别聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况；最小最大判别准则主要用于先验概率未知的情况。 4、马式距离较之于欧式距离的优点优点：马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点：夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。尺度不变性；考虑了模式的分布 5、关联规则的经典算法有哪些 Apriori 算法；FP-tree；基于划分的算法 Apriori算法、GRI算法、Carma 6、分类的过程或步骤答案一：ppt上的 1、模型构建（归纳）通过对训练集合的归纳，建立分类模型。 2、预测应用（推论）根据建立的分类模型，对测试集合进行测试。答案二：老师版本的训练样本的收集训练集的预处理、模型的选择、模型的训练（问老师后理解整理） 7、分类评价标准

1）正确率（accuracy）就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好； 2）错误率（error rate) 错误率则与正确率相反，描述被分类器错分的比例，error rate = (FP+FN)/(P+N)，对某一个实例来说，分对与分错是互斥事件，所以 accuracy =1 - error rate； 3）灵敏度（sensitive） sensitive = TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力； 4）特效度（specificity) specificity = TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；5）精度（precision）精度是精确性的度量，表示被分为正例的示例中实际为正例的比例， precision=TP/（TP+FP）；6）召回率（recall）召回率是覆盖面的度量，度量有多个正例被分为正例， recall=TP/(TP+FN)=TP/P= sensitive，可以看到召回率与灵敏度是一样的。正确率：它表示的预测结果正确比例。包括正例和负例。精确度：它表示的是预测是正例的结果中，实际为正例的比例。召回率：它表示的是实际为正例样本中，预测也为正例的比例。综合指标：F1=2*精确率*召回率/精确率+召回率，它实际上精确度和召回率的一个综合指标。 8、支持向量机及常见的核函数选择 SVM的目的是寻找泛化能力好的决策函数，即由有限样本量的训练样本所得的决策函数，在对独立的测试样本做预测分类时，任然保证较小的误差。本质：求解凸二次优化问题，能够保证所找到的极值解就是全局最优解。支持向量机的标准：使两类样本到分类面的最短距离之和尽可能大支持向量机基本思想：通过训练误差和类间宽度之间的权衡，得到一个最优超平面支持向量机是利用分类间隔的思想进行训练的，它依赖于对数据的预处理,即在更高维的空间表达原始模式。通过适当的到一个足够高维的非线性映射，分别属于两类的原始数据就能够被一个超平面来分隔。支持向量机的基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络，其输出是若干中间层节点的线性组合，而每一个中间层节点对应于输入样本与一个支持向量的内积，因此也被叫做支持向量网络。

大数据的4V特征

大数据的4V特征近几年很多领域都在讨论如何发展和运用大数据，那么什么是大数据？大数据的特征是什么？好多人不怎么了解，下文对这些方面进行简单的阐述。（一）大数据（Big Data）大数据是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息，定制出高度个性化的用户体验，并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。（二）大数据的4V特征大量化(V olume)：企业面临着数据量的大规模增长。例如，IDC最近的报告预测称，到2020年，全球数据量将扩大50倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。简而言之，存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外，各种意想不到的来源都能产生数据。多样化(Variety)：一个普遍观点认为，人们使用互联网搜索是形成数据多样性的主要原因，这一看法部分正确。然而，数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中，部分传感器安装在火车、汽车和飞机上，每个传感器都增加了数据的多样性。快速化(Velocity)：高速描述的是数据被创建和移动的速度。在高速网络时代，通过基于实现软件性能优化的高速电脑处理器和服务器，创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。根据IMS Research关于数据创建速度的调查，据预测，到2020年全球将拥有220亿部互联网连接设备。价值化（Value）：大量的不相关信息，浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析，深度复杂分析（机器学习、人工智能Vs传统商务智能(咨询、报告等）蚁坊软件在舆情大数据处理中注重大量化、多样化、快速化、价值化，凭借自身的大数据平台为客户提供舆情应用服务，其中鹰击提供微博舆情监测分析服务，正是基于这四个维度，其舆情“早发现”的能力显著领先竞争对手，为舆情早报告、早响应提供先机；而蚁坊软件旗下的另外一款典型产品，则是从多样性（全网）、快速性方面独有优势——鹰眼提供全网舆情监测分析服务，方便客户“速读网”，掌控舆情发展态势。

互联网时代的四个特点

互联网时代的四个特点现在关于互联网，有互联网思维、互联网技术革命、互联网创新，各种提法很多。但是我认为互联网不单是一种思维、一种技术，它是一个时代。置身于这个时代，不管你了解不了解,喜欢不喜欢，你都难以回避它的影响：它在改变我们的生活方式，颠覆我们的商业模式，冲击我们固有的思维方式，它迫使我们重新认识外部环境，重新认识客户，重新认识自己；要求我们自我否定、自我超越！互联网作为一个时代，它具有什么特点？我认为这个时代有四个鲜明特点。第一个特点:这是一个“通融互联”时代。通，就是互联互通。互联互通超越时空差距，使组织与客户、人与人之间的距离零成本趋近，无障碍沟通与交流价值倍增。融，就是整个世界的多元要素融为一体了。各种要素交织，形成了你中有我，我中有你；不知道敌人是谁，也不知道朋友是谁。人与人之间无距离融合后，界限就模糊了。通融互联给企业带来的最大影响是信息对称和平衡了，由此形成了你中有我、我中有你的状态，这就把过去靠信息不对称进行“暗箱操作”来获取利益的盈利模式彻底颠覆了。互联网时代，企业要从不对称竞争走向对称竞争，利益都要摊到一个共同的桌面上，而且必须有新规则。由此，企业跟客户的关系、企业内部的管理模式，统统都将发生一场革命。通融对称，这是互联网时代的一个突出特点，它带来的变化就是使得透明、规则、价值观这些东西变得更加重要。第二个特点:这是一个“网状价值结构”时代。即以客户为中心的价值交互网和以人为中心的价值创造网。这里面又有几个关键特点：一个是先有客户价值才有企业价值。第二个就是组织从串联到并联，在内部呈网状结构，在外部也是如此。你中有我，我中有你，由无数个微型组织、自主经营体所编织而成的一个价值创造交互网。网状结构的突出特点是：抓住一个点施力就可能迅速布满全局。在网状结构下，一个微创新可能会像“蝴蝶效应”一样引发巨大的价值创造能量。在网状价值结构的前提条件下，员工的创新精神和潜能的激发是组织活力的核心。所以也可以说，这将是一个围绕客户和人的价值来进行价值创造的时代。第三个特点:这是一个大数据和高流动时代。互联网产生大数据，而大数据的特点是不精确和动态的。有人说，这是个“大明星也去吃大排档，小老百姓去买奢侈品”的时代，也就是说，客户的需求是不确定的、很多数据也变为不确定。但同时，大数据实际上也是大样本、全样本，可能比之前的抽样还要精准，从小数据、小样本中可预测到大趋势。因此，企业不能再单纯依靠精确定量化的数据来做理性分析，还需要基于大数据来分析趋势、捕捉机会。同时，在互联网时代，资金、人、知识和信息等各种要素都将是高速流动的。这种情况下，企业最大的财富不再是简单的人才了，而是所拥有的数据与知识，以及如何使得你的数据和知识能够在各利益相关方之间进行应用、转换与创新。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化海量数据挖掘技术及工程实践》题目、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时，分类和预测数据流挖掘可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析建立一个模型， B. D. 聚类隐马尔可夫链通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时，15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型：(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作：( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法：(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是：(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为：(D) 15) 一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130 人，四年级110 人。则年级属性的众数是：(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术：(B) A. 等高线图 B. 饼图

大数据的概念、特征及其应用

马建光等：大数据的概念、特征及其应用 (2013-09-05 16:15:35) 转载▼ 分类：学习资料标签：杂谈大数据的概念、特征及其应用马建光，姜巍 (国防科技大学人文与社会科学学院，湖南长沙410074) 源自：国防科技2013年4月［摘要］随着互联网的飞速发展，特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用，以数量庞大，种类众多，时效性强为特征的非结构化数据不断涌现，数据的重要性愈发凸显，传统的数据存储、分析技术难以实时处理大量的非结构化信息，大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点，分别讨论大数据的典型的特征，分析大数据要解决的相关性分析、实时处理等核心问题，最后讨论大数据可能要面临的多种挑战。［关键词］大数据; 非结构化信息; 解决核心问题; 未来挑战一、引言自上古时代的结绳记事起，人类就开始用数据来表征自然和社会，伴随着科技和社会的发展进步，数据的数量不断增多，质量不断提高。工业革命以来，人类更加注重数据的作用，不同的行业先后确定了数据标准，并积累了大量的结构化数据，计算机和网络的兴起，大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来，随着互联网的快速发展，音频、文字、图片视频等半结构化、非结构化数据大量涌现，社交网络、物联网、云计算广泛应用，使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域，数据规模、数据种类正在以极快的速度增长，大数据时代已悄然降临。首先，全球数据量出现爆炸式增长，数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计［1］，即使在遭遇金融危机的2009 年，全球信息量也比2008 年增长了62%，达到80 万PB ( 1PB 等于10亿GB) ，到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB，) ，并且以每两年翻一番的速度飞速增长，预计到2020 年全球数据量总量将达到40 ZB，10年间增长20 倍以上，到2020 年，地球上人均数据预计将达5247GB。在数据规模急剧增长的同时，数据类型也越来越复杂，包括结构化数据、半结构化数据、非结构化数据等多种类型，其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。如此增长迅速、庞大繁杂的数据资源，给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务，与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题，得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年3 月22 日，奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”［2］，欲大力推

大数据预测：4个特征,11个典型行业

在互联网之前便已经有基于大数据的预测分析了：天气预报。因为互联网，天气预报为代表的大数据预测的以下几个特征在更多领域得到体现。 1、大数据预测的时效性。天气预报粒度从天缩短到小时，有严苛的时效要求，基于海量数据通过传统方式进行计算，得出结论时明天早已到来，预测并无价值。其他领域的大数据预测应用特征对“时效性”有更高要求，譬如股市、实时定价，而云计算、分布式计算和超级计算机的发展则提供了这样的高速计算能力。 2、大数据预测的数据源。天气预报需要收集海量气象数据，气象卫星、气象站台负责收集，但整套系统的部署和运维耗资巨大。在互联网之前鲜有领域具备这样的数据收集能力。WEB1.0为中心化信息产生、WEB2.0为社会化创造、移动互联网则是随时随地、社会化和多设备的数据上传，每一次演化数据收集的成本都大幅降低，范围和规模则大幅扩大。大数据被引爆的同时，大数据预测所需数据源不再是问题。 3、大数据预测的动态性。不同时点的计算因子动态变化，任何变量都会引发整个系统变化，甚至产生蝴蝶效应。如果某个变量对结果起决定性作用且难以捕捉，预测难上加难，譬如人为因素。大数据预测的应用场景大都是极不稳定的领域但有固定规律，譬如天气、股市、疾病。这需要预测系统对每一个变量数据的精准捕捉，并接近实时地调整预测。发达的传感器网络外加大数据计算能力让上述两点更加容易。 4、大数据预测的规律性。大数据预测与传统的基于抽样的预测不同之处在于，其基于海量历史数据和实时动态数据，发现数据与结果之间的规律，并假设此规律会延续，捕捉到变量之后进行预测。一个领域本身便有相对稳定的规律，大数据预测才有机会得到应用。古人夜观天象就说明天气是由规律可循的，因此气象预报最早得到应用。反面案例则是规律难以捉摸，数据源收集困难的地震预测，还有双色球彩票。大数据预测的典型应用领域互联网给大数据预测应用的普及带来了便利条件。天气预报之外，还有哪些领域正在或者可能被大数据预测所改变呢？结合国内外案例来看，以下11个领域是最有机会的大数据预测应用领域。 1、体育赛事预测世界杯期间，谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼，预测全程 64 场比赛，准确率为 67%，进入淘汰赛后准确率为 94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。 Google 世界杯预测基于 Opta Sports 的海量赛事数据来构建其最终的预测模型。百度则是搜索过去 5 年内全世界 987 支球队（含国家队和俱乐部队）的 3.7 万场比赛数据，同时与中国彩票网站

大数据时代的挑战--价值与应对策略

2012中国国际信息通信展专刊 14 2012年第17期大数据时代的挑战、价值与应对策略随着全球数据量爆炸式的增长，大数据时代已经到来。文章从大数据时代的基本特征入手，引出了大数据时代面临的挑战以及大数据带来的价值，提出了以创新为核心的务实应对策略。【摘要】【关键词】大数据时代 “四V ”特征流量经营安全威胁收稿日期：2012-08-14 责任编辑：左永君 zuoyongjun@https://www.360docs.net/doc/1e13513121.html, 随着移动互联网、物联网、云计算等的快速发展，及视频监控、智能终端、应用商店等的快速普及，全球数据量出现爆炸式增长。即使在遭遇金融危机的2009年，全球信息量也比2008年增长62%，达到80万PB（1015字节），2010年增至120万PB。据IDC预测，至2020年全球以电子式形存储的数据量将达32ZB （1021字节）。以120万PB数据为例，如果将其刻录在DVD上，再将这些盘片堆叠起来，可从地球到月球垒一个来回！在此背景下，电信运营商在其网络无休止扩容的同时，却面临“增量不增收”的困境；而一些采用“数据驱动型决策”模式经营的公司，则可将其生产力提高5%～6%。因此，有必要深入研究大数据时代（Big Data Era）的挑战、价值与务实应对策略。 1 大数据时代的基本特征据统计，2010年以互联网为基础所产生的数据比之前所有年份的总和还要多；而且不仅是数据量的激增，数据结构亦在演变。Gartner预计，2012年半结构和非结构化的数据，诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的85%左右；而且，整个网络体系架构将面临革命性改变。由此，所谓大数据时代已经来临！对于大数据时代，目前通常认为有下述四大特征，称为“四V”特征：（1）量大（V o l u m e B i g ）。数据量级已从T B （1012字节）发展至PB乃至ZB，可称海量、巨量乃至超量。（2）多样化（Variable Type）。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。（3）快速化（Velocity Fast）。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；处理工具亦在快速演进，软件工程及人工智能等均可能介入。（4）价值高和密度低（V a l u e H i g h a n d L o w Density）。以视频安全监控为例，连续不断的监控流中，有重大价值者可能仅为一两秒的数据流；360°全方位视频监控的“死角”处，可能会挖掘出最有价值的图像信息。 2 大数据时代面临的挑战（1）运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战，管道化压力化解及“云－管－端”的有效装备也均面临新挑战。（2）大数据的“四V”特征在数据存储、传输、

北邮_大数据技术课程重点总结

大数据技术 1.什么是数据挖掘，什么是机器学习：什么是机器学习关注的问题：计算机程序如何随着经验积累自动提高性能；研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；通过输入和输出，来训练一个模型。 2.大数据分析系统层次结构：应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，如果数据被很好的表达成了特征，通常线性模型就能达到满意的精度。 4.大数据分析的主要思想方法 4.1三个思维上的转变关注全集（不是随机样本而是全体数据）：面临大规模数据时，依赖于采样分析；统计学习的目的——用尽可能少的数据来证实尽可能重大的发现；大数据是指不用随机分析这样的捷径，而是采用大部分或全体数据。关注概率（不是精确性而是概率）：大数据的简单算法比小数据的复杂算法更有效关注关系（不是因果关系而是相关关系）：建立在相关关系分析法基础上的预测是大数据的核心，相关关系的核心是量化两个数据值之间的数理关系，关联物是预测的关键。 4.2数据创新的思维方式可量化是数据的核心特征（将所有可能与不可能的信息数据化）；挖掘数据潜在的价值是数据创新的核心；三类最有价值的信息：位置信息、信令信息以及网管和日志。数据混搭为创造新应用提供了重要支持。数据坟墓：提供数据服务，其他人都比我聪明！数据废气：是用户在线交互的副产品，包括了浏览的页面，停留了多久，鼠标光标停留的位置、输入的信息。 4.3大数据分析的要素大数据“价值链”构成：数据、技术与需求（思维）；数据的价值在于正确的解读。

大数据及其特点(1)

大数据及其特点（1）胡经国一、大数据定义据了解，目前大数据这一概念尚无大家公认的统一定义。下面仅介绍关于大数据定义的一些常见表述，供读者参考。 1、表述1 大数据（Big Data）是指一个数据集，它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。 Big Data referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI May，2011 大数据是指一个数据集，它的尺寸的增长已经让现有的数据库管理工具相形见绌，这些困难包括：数据采集、存储、搜索、分享、分析和可视化。 Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia 2、表述2 大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看，大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 3、表述3 大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。 4、表述4 美国咨询公司麦肯锡给出的大数据定义：大数据是指其大小超出常规数据库工具的采集、存储、管理和分析能力的数据集。由于传统数据库有效工作的数据上限一般为10～100TB；因而10～100TB 通常成为大数据的“门槛”。无独有偶，IDC（国际数据公司）在给大数据做定义时，也把大数据的“门槛”设在100TB。其实，这种方法未必科学。不管怎样，有一个简单明晰的数值来指导对大数据的判断总是好事。

《我们的大数据时代》考试题目及答案

我们的大数据时代（一）单选题（每题2分） 1. 下列关于舍恩伯格对大数据特点的说法中，错误的是（D） A. 数据规模大 B. 数据类型多样 C. 数据处理速度快 D. 数据价值密度高 2. 下列关于大数据的分析理念的说法中，错误的是（D） A. 在数据基础上倾向于全体数据而不是抽样数据 B. 在分析方法上更注重相关分析我不是因果分析 C. 在分析效果上更追究效率而不是绝对精确 D. 在数据规模上强调相对数据而不是绝对数据 3. 万维网之父是（C） A. 彼得·德鲁克 B. 舍恩伯格 C. 蒂姆·伯纳斯—李 D. 斯科特·布朗 4. 下列关于普查的缺点的说法中，正确的是（A）。 A. 工作量较大，容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D. 评测结果不够稳定 5.下列关于聚类挖掘技术的说法中，错误的是（B）。 A. 不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别 B. 要求同类数据的内容相似度尽可能小 C. 要求不同类数据的内容相似度尽可能小 D. 与分类挖掘技术相似的是，都是要对数据进行分类处理 6. 智慧城市的构建，不包含（C）。 A. 数字城市 B. 物联网 C. 联网监控 D. 云计算 7.大数据的起源是（C）。 A. 金融 B. 电信 C. 互联网 D. 公共管理 8. 智慧城市的智慧之源是（C）。 A. 数字城市 B. 物联网 C. 大数据 D. 云计算 9. 假设一种基因同时导致两件事情，一是使人喜欢抽烟，二是使这个人和肺癌就是（A）关系，而吸烟和肺癌则是（A）关系。

A. 因果；相关 B. 相关；因果 C. 并列；相关 D. 因果；并列 10. 下列关于数据交易市场的说法中，错误的是（C）。 A. 数据交易市场是大数据产业发展到一定程度的产物 B. 商业化的数据交易活动催生了多方参与的第三方数据交易市场 C. 数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助 D. 数据交易市场是大数据资源化的必然产物 11. 下列关于计算机存储容量单位的说法中，错误的是（C）。 A. 1KB<1MB<1GB B. 基本单位是字节（Byte） C. 一个汉字需要一个字节的存储空间 D. 一个字节能够容纳一个英文字符 12. 当前大数据技术的基础是由（C）首先提出的。 A. 微软 B. 百度 C. 谷歌 D. 阿里巴巴 13. 下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是（D）。 A. 美国 B. 日本 C. 中国 D. 韩国 14. 下列演示方式中，不属于传统统计图方式的是（D）。 A. 柱状图 B. 饼状图 C. 曲线图 D. 网络图 15. 当前社会中，最为突出的大数据环境是（A）。 A. 互联网 B. 物联网 C. 综合国力 D. 自然资源 16. 可以对大数据进行深度分析的平台工具是（C）。 A. 传统的机器学习和数据分析工具 B. 第二代机器学习工具 C. 第三代机器学习工具 D. 未来机器学习工具 17. 智能健康手环的应用开发，体现了（D）的数据采集技术的应用。 A. 统计报表 B. 网络爬虫 C. API接口 D. 传感器 18. 过一系列处理，在基本保持原始数据完整性的基础上，减小数据规模的是（C）。 A. 数据清洗

大数据时代的特征

随着云时代的来临，大数据也吸引了越来越多的关注。那么，大数据有哪些特征呢？ 1、多元化。大数据时代，数据类别和格式多样，使得海量数据能够凸显出事物的多方面关联性，显示出多方面的信息内涵。大数据时代，全媒体趋势、信息媒体化趋势进一步加强，从而体现出多元化和多样性。 2、可量化。大数据时代，文字可以变成数据、方位可以变成数据、沟通可以变成数据、人从身体到心理可以实现自我量化，世间万物都可以变成数据，世间一切事物都可以作为“变量”。庞大的数据资源使得学术界、商业界、政府等各个领域开始量化进程。 3、个性化。海量数据是一种共享性、开放性的公共信息资源，大数据时代的文化共享、民主平权，使得每个人都可以从“云”中海量的共享性数据资源中调用、择取自己所需要的数据进行挖掘、分析，为己所用，从而真正地实现个性化发展、满足个性化需求。

4、互动性。大数据时代，人-人、人-机、机-机之间将实现全面互动。互联网实现了无距离互动，移动终端实现了时空互动，物联网实现了设备互动。信息和数据在各种互动中实现交流和共享，在不断传播中相互影响和相互作用。而人们则可以根据自己的需要和偏好，随时控制信息、信息量和信息呈现的秩序。 5、开放性。大数据时代是一个开放的时代，一切都被置于“第三只眼”中，分享、共享成为共识，社会将呈现出透明、公开、有序和生机的特征。移动终端、智能手机、摄像头以及其他诸多的信息采集设备和存储设备将海量数据置于公共空间，数据的对外开放为公众共享信息提供了基础。 6、预测性。大数据时代，依托多维度、多来源、多形式的海量数据和挖掘工具与分析技术的深度、广度与精度，通过海量交叉验证征兆与变化规律、发掘事件概率，做出较为精准的预判、预测，将引领人类无限接近控制未来的终极梦想。以上就是全部内容，希望对大家有所帮助，感谢您的阅读！

基于电网运行大数据的在线分布式安全特征选择

基于电网运行大数据的在线分布式安全特征选择黄天恩1, 2,孙宏斌1,2,郭庆来1,2 ,温柏坚3,郭文鑫3(1. 清华大学电机工程与应用电子技术系,北京市100084;2. 电力系统及发电设备控制和仿真国家重点实验室,清华大学,北京市100084;3. 广东电网有限责任公司电力调度控制中心,广东省广州市510600)摘要:简述大数据环境下,电网安全特征选择的现状与问题三提出了一种基于电网特征量相关性分组二适应于电网运行大数据的在线分布式安全特征选择方法,该方法能在线挖掘出关键的电网安全运行特征三首先阐述了单个计算节点上电网安全特征选择方法,接着提出了基于电网特征量分组的分布式安全特征选择方法;由于电网特征量分组情况会对特征选择结果产生较大影响,故提出了基于电网特征量相关性分组的策略,尽量使得同一组内的电网特征量相关性较大,不同分组间的电网特征量相关性较小三IEEE 9节点系统和广东实际省网系统算例验证了该方法的实用性和有效性,表明了该方法能够快速挖掘出电网运行的薄弱点,帮助电网运行人员准确地把握电网安全运行特征,同时也对比了该方法相比传统方法在计算准确性和计算速度方面的优势三关键词:热稳定安全域;多维空间;多约束;分段线性近似收稿日期:2015-04-24;修回日期:2015-09-08三国家重点基础研究发展计划(973计划)资助项目(2013CB228203) ;国家自然科学基金创新研究群体科学基金资助项目(51321005);中国南方电网有限责任公司科技项目(GDKJ00000058) 三0一引言随着智能电网的发展与电网自动化程度的提高,电力系统运行与控制中数据来源十分广泛,有来自电气信息采集系统(CIS ) 二广域测量系统(WAMS )和能量管理系统(EMS )等电网内部数据,也有来自气象信息系统二地理信息系统(GIS )等电网外部数据 [1] 三这些电力系统运行与控制中产生数据有如下特点:①数据规模越来越大, 数据洪流由传统意义上的GB 上升到TB ,PB 水平;②数据类型丰富,包含结构化二半结构化和非结构化的数据;③数据快速产生,从而数据处理需要达到快速二实时的要求;④数据的价值密度低,由于数据规模大二类型多二产生速率快,对发电企业二电网公司和用户有着巨大的潜在价值,但价值密度却不高三不难发现,电力系统运行与控制中产生的数据具有信息通信技术(ICT )行业大数据典型的 4V 特征,即规模性(volume ),多样性(variet y ),高速性(velocit y ) 和价值性(value )[2] , 这些数据中蕴含着复杂的相关性,传统数据处理技术在数据存储二查询和分析等方面遇到瓶颈,所以亟须研究电力系统大数据环境下的数据挖掘与处理技术[ 3-4] 三随着交直流电网的快速发展以及可再生能源的不断接入,大电网运行方式时变性和复杂性日益增强,其安全运行的特征和规律越来越难以把握,极大地增加了电网运行风险和控制难度三近些年来国内外一系列的电网安全运行事故[5-6] 都说明:电网运行人员要依托电网安全稳定分析技术[7-9] ,充分掌握电网安全运行的特征和规律,迅速二精确地明晰电网薄弱点[10] ,才能避免电网运行事故的发生三文献中有利用相量测量单元(PMU )和故障录波器(DFR ) 等实际量测大数据[11-12] ,分析电力系统安全稳定问题和故障原因;而本文关注到电力系统中海量的计算资源,故可以利用电网安全稳定分析中的仿真大数据,采用大数据机器学习与数据挖掘的方法,在线挖掘出电网运行的关键安全特征三特征选择和特征抽取是典型的两种数据降维技术三特征选择将原始的高维特征空间,通过某种标准筛选出一个最优或最有效的特征子集,剔除冗余特征,从而达到降低维数的目标三而特征抽取是将原始的高维特征空间,通过特定的变换投影到数据特征相对容易表达的低维特征空间[ 13-14] 三在电力系统运行与分析中,特征选择方法更为广泛接受三一方面,由于量测和仿真数据规模较大,维数较高,特征选择方法计算复杂度相对较低;另一方面,特征选 2 3Vol.40No.4Feb.25,2016 DOI :10.7500/AEPS20150424003

大数据的定义及基本特征

大数据的定义及基本特征无论是2001年梅塔集团分析师道格〃莱尼提出的大数据技术萌芽，还是2008年IBM公司的史密斯首次以“BIG DATA”的名词初步定义了大数据的含义，时至今日，科学届对大数据还没有给出一个完整准确的定义，不同领域的科学家们都从不同的视角诠释了大数据的基本含义。但是，纵观大数据发展的前世今生，以及今后的发展趋势，大数据的含义可以归结为：大数据是人类认知世界的技术理念，是在信息技术支撑下，利用全新的数据分析处理方法，在海量、复杂、散乱的数据集合中提取有价值信息的技术处理过程，其核心就是对数据进行智能化的信息挖掘，并发挥其作用。有人说世界的本质就是数据，在当今充满数字化数据的时代，数据处理变得更加容易、更加快速，人们能够在瞬间处理成千上万的海量数据，为了在数据中理解信息内容，发现信息与信息之间的关系，人类从没有像今天这样对数据有那么深刻的认识，实际上，我们应该重新认识数据的特征：（1）海量的数据规模（Volume）。具有当前任何一种单体设备难以直接存储、管理和使用的数据量，大数据中所说的“大”也包括数据的全面性。（2）快速的数据流转和动态的数据变化（Velocity）。数据会随着时间和环境发生变化。

（3）多样的数据类型（Variety）。刻画特定事物特征或规律的数据是以多种形式存在的。（4）巨大的数据价值（Value）。数据就是资源，许多看似杂乱无章的数据，其潜在蕴含着巨大的价值，数据的价值是由不同的应用目的而体现。（5）智能化数据挖掘（Intelligence）。无论数据有多少，还是以何种形式呈现，人类要想从数据中发现事物的真相，必须应用全新的方法分析数据，以得到有价值的信息。

大数据的定义和特征

大数据的定义和特征大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。我们从权威的定义可以看到，大数据的特征有四点，分别为：数据体量巨大。从TB级别，跃升到PB级别; 数据类型繁多。提到的网络日志、视频、图片、地理位置信息等等；价值密度低，商业价值高。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。处理速度快。1秒定律。车联网的大数据在预测方面可以发挥到极致。如，预测交通堵塞的地段，实时交通信息，主动安全，公交的排班。驾驶者驾驶行为分析。

大数据的核心在于预测，这在车联网行业非常有用，例如，对于交通流量的预测，就非常需要大数据。对于交通流量，目前我们的仿真系统更加重视交通流量大，拥堵的原因，而大数据时代，不再在乎因果关系，而重视相关性，也就是不去分析产生拥堵的原因，但确实某个时段某个路段会发生拥堵。也可以根据车联网的大数据对车友的兴趣进行分析。大数据在商用车领域已经有相当多的应用，如公交领域的运营排班管理、出租车领域的浮动车数据，物流行业的大物流。如何解决公交企业面临的三大问题：运力配备最少、车辆运行距离最短、驾驶员作业时间最少?如何分析各时间段、各站点的客流分布情况呢?如何实现运营的安全智能化、运营排班的智能化?在公交行业，以上问题普遍存在，通过车联网的大数据，可以解决公交行业所面临的这些问题。根据各个时间段，各站点的客流量大小，线路配备的运营车辆数、线路配备驾驶人员、线路长度、车辆运行速

度等大数据，可确定一条线路各个时间段的配车数及发车间隔，从而解决运力配备最少、车辆运行距离最短、驾驶员作业时间最少三大问题。根据客流量、节假日、气候、节气、自然灾害、道路、车况事故、历史同期数据、售票方式、居民小区建设等条件建立计划模型，从而用最快的速度对这些影响运营计划的因素做出反映。比如增加线路，增加车辆，增加司机，有效地制定公交运营计划。同时可对于运营排班精准管理，可通过大数据可以自动排班，对行车作业计划进行优化，并快速地对运行线路进行调整和优化。自从菜鸟网络公司出现以后，大物流的概念终于被业界提及。什么叫大物流呢?是指企业的自有物流系统(由车队、仓库、人员等组成)，和第三方物流企业的配送信息与资源进行共享，从而能充分地利用各方面资源，减少物流总支出、降低运营成本。目前物流行业随着业务的扩大，车辆数日益增多，而且