大数据的概念_特征及其应用_马建光

大数据的概念_特征及其应用_马建光
大数据的概念_特征及其应用_马建光

第34卷第2期2013年4月

国防科技

NATIONAL DEFENSE SCIENCE&TECHNOLOGY

Vol.34,No.2

Apr.2013大数据的概念、特征及其应用*

马建光,姜巍

(国防科技大学人文与社会科学学院,湖南长沙410074)

[摘要]随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。

[关键词]大数据;非结构化信息;解决核心问题;未来挑战

[中图分类号]E924.2[文献标识码]A[文章编号]1671-4547(2013)02-0010-08

一、引言

自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。

首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC的监测统计[1],即使在遭遇金融危机的2009年,全球信息量也比2008年增长了62%,达到80万PB(1PB等于10亿GB),到2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB,),并且以每两年翻一番的速度飞速增长,预计到2020年全球数据量总量将达到40ZB,10年间增长20倍以上,到2020年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。

如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012年3月22日,奥巴马宣布美国政府五大部门投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”[2],欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,美国政府认为大数据是未来信息时代的重要资源,战略地位堪比

*[收稿日期]2012-04-12

[作者简介]马建光,男,教授,国防科技大学;

姜巍,男,博士研究生

马建光等:大数据的概念、特征及其应用

工业时代的石油,其影响除了体现在科技、经济方面,同时将也对政治、文化等方面产生深远的影响。在商业方面,2013年,Gartner发布了将在未来三年对企业产生重大影响的十大战略技术中,大数据名列其中,提出大数据技术将影响企业的长期计划、规划和行动方案,同时,IBM、Intel、EMC、Walmart、Teradata、Oracle、Microsoft、Google、Facebook等发源于美国的跨国巨头也积极提出自己的应对大数据挑战的发展策略,他们成了发展大数据处理技术的主要推动者。在科技领域,庞大的数据正在改变着人类发现问题、解决问题的基本方式,采用最简单的统计分析算法,将大量数据不经过模型和假设直接交给高性能计算机处理,就可以发现某些传统科学方法难以得到的规律和结论。图灵奖得主吉姆·格雷提出的数据密集型科研第四范式[3],不同于传统的实验、理论和计算三种范式,第四种范式不需要考虑因果关系,以数据为中心,分析数据的相关性,打破了千百年来从结果出发探究原因的科研模式,大规模的复杂数据使得新的科研模式成为可能。

虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基本概念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有过度炒作的嫌疑。欧洲的一些企业甚至认为大数据就是海量数据存储,仅将大数据视作是可以获取更多信息的平台。本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题,在此基础上,最后讨论大数据可能要面临的多种挑战。

二、国内外开展的相关工作

近年来,大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的关注和研究,有一些相关的研究成果。早在1980年,阿尔文·托夫勒[4]等人就前瞻性地指出过大数据时代即将到来。此后经过几十年的发展,特别是移动互联网络和云计算的出现,人们逐渐认识到大数据的重大意义,国际顶级学术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应用,2008年Nature出版专刊“Big Data”[5],分析了大量快速涌现数据给数据分析处理带来的巨大挑战,大数据的影响遍及互联网技术、电子商务、超级计算、环境科学、生物医药等多个领域。2011年Science推出关于数据处理的专刊“Dealing with data”[6],讨论了数据洪流(Data Deluge)所带来的挑战,提出了对大数据进行有效的分析、组织、利用可以对社会发展起到巨大推动作用。在大数据领域,国内学者也有大量的相关工作,李国杰等人[7]阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略提出了建议。文献[8-10]主要关注大数据分析、查询方面的理论、技术,对大数据基本概念进行了剖析,列举了大数据分析平台需要具备的几个重要特性,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。随着大数据理念逐渐被大众了解,出现了一些阐述大数据基本概念与思想的专著,舍恩伯格等在大数据时代[11]一书中用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。近年来,大数据对经济的推动作用被广泛接受,出现了探讨大数据在商业领域的应用的文章和专著,Martin Klubeck等人在量化:大数据时代的企业管理[12]一书中提到,进入大数据时代,数据发挥着关键的作用,探讨了如何从空前膨胀的海量数据中挖掘出有用的指标和信息。朱志军等人所著的《转型时代丛书:大数据·大价值、大机遇、大变革》[13]中介绍了大数据产生的背景、特征和发展趋势,从实证的角度探讨了它对社会和商业智能的影响,并认为大数据正影响着商业模式的转变,并将带来新的商业机会。

三、大数据的概念与特点

大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义为[14]:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。笔者认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。IDC在对大数据作出的定义

11

国防科技2013年第2期(总第279期)

为[15]:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner给出了这样的定义[16]:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。

(一)数据量大

大数据聚合在一起的数据量是非常大的,根据IDC的定义至少要有超过100TB的可供分析的数据,数据量大是大数据的基本属性。导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量显著增多。

(二)数据类型多样

数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,一般不需要为新增的数据显著的更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存储空间。这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度一般呈线性增长,新增的数据可以通过常规的技术手段处理。而随着互联网络与传感器的飞速发展,非结构化数据大量涌

21

马建光等:大数据的概念、特征及其应用

现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,增加了数据存储、处理的难度。而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据。如上所述,非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐的排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。

(三)数据处理速度快

要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展普及,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成为了数据产生的主体之一,数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理,就失去了价值,大量的数据就没有意义。此外,在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性,大数据以数据流的形式产生、快速流动、迅速消失,且数据流量通常不是平稳的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间(moment,3秒钟)是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟或者瞬间内形成结果,否则处理结果就是过时和无效的,这种情况下,大数据要求快速、持续的实时处理。对不断激增的海量数据数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。

(四)数据价值密度低

数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息,而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据,由于减少了采样和抽象,呈现所有数据和全部细节信息,可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低,以当前广泛应用的监控视频为例,在连续不间断监控过程中,大量的视频数据被存储下来,许多数据可能是无用,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅有一两秒,大量不相关的视频信息增加了获取这有效的一两秒数据的难度。但是大数据的数据密度低是指相对于特定的应用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用是无效的信息对于另外一些应用则成为最关键的信息,数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响,比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此为了保证对于新产生的应用有足够的有效信息,通常必须保存所有数据,这样就使得一方面是数据的绝对数量激增,一方面是数据包含有效信息量的比例不断减少,数据价值密度偏低。

四、大数据要解决的核心问题

与传统海量数据的处理流程相类似,大数据的处理也包括获取与特定的应用相关的有用数

31

国防科技2013年第2期(总第279期)

据,并将数据聚合成便于存储、分析、查询的形式;分析数据的相关性,得出相关属性;采用合适的方式将数据分析的结果展示出来等过程。大数据要解决的核心问题与相应的这些步骤相关。

(一)获取有用数据

通常认为,数据是大数据要处理的对象,大数据技术流程应该从对数据的分析开始,实际上,规模巨大,种类繁多,包含大量信息的数据是大数据的基础,数据本身的优劣对分析结果有很大的影响,有一种观点认为,数据量大了可以不必强调数据的质量,允许错误的数据进入系统,参与分析。大量的数据中包含少量的错误数据影响不大,事实上如果不加约束,大量错误数据涌入就可能导致得到完全错误的结果。正是数据获取技术的进步促成了大数据的兴起,大数据理应重视数据的获取,如果通过简单的算法处理大量的数据就可以得出相关的结果,则解决问题的困难就转到了如何获取有效的数据。文献[8]中指出数据的产生技术经历了被动、主动和自动的三个阶段,早期的数据是人们为基于分析特定问题的需要,通过采样、抽象等方法记录产生的数据;随着互联网特别是社交网络的发展,越来越多的人在网络上传递发布信息,主动产生数据;而传感器技术的广泛应用使得利用传感器网络可以不用控制全天候的自动获取数据。其中自动、主动数据的大量涌现,构成了大数据的主要来源。对于实际应用来说,并不是数据越多越好,获取大量数据的目的是尽可能正确、详尽的描述事物的属性,对于特定的应用数据必须包含有用的信息,拥有包含足够信息的有效数据才是大数据的关键。有了原始数据,要从数据中抽取有效的信息,将这些数据以某种形式聚集起来,对于结构化数据,此类工作相对简单。而大数据通常处理的是非结构化数据,数据种类繁多,构成复杂,需要根据特定应用的需求,从数据中抽取相关的有效数据,同时尽量摒除可能影响判断的错误数据和无关数据。

(二)数据分析

数据分析是大数据处理的关键,大量的数据本身并没有实际意义,只有针对特定的应用分析这些数据,使之转化成有用的结果,海量的数据才能发挥作用。数据是广泛可用的,所缺乏的是从数据中提取知识的能力,当前,对非结构化数据的分析仍缺乏快速、高效的手段,一方面是数据不断快速的产生、更新,一方面是大量的非结构化数据难以得到有效的分析,大数据的前途取决于从大量未开发的数据中提取价值,据IDC统计[2]:2012年,若经过标记和分析,数据总量中23%将成为有效数据,大约为643EB;但实际上只有3%的潜在有效数据被标记,大量的有效数据不幸丢失。预计到2020年,若经过标记和分析,将有33%(13000EB)的数据成为有效数据,具备大数据价值。价值被隐藏起来的数据量和价值被真正挖掘出来的数据量之间的差距巨大,产生了大数据鸿沟,对多种数据类型构成的异构数据集进行交叉分析的技术,是大数据的核心技术之一。此外,大数据的一类重要应用是利用海量的数据,通过运算分析事物的相关性,进而预测事物的发展。与只记录过去,关注状态,简单生成报表的传统数据不同,大数据不是静止不动的,而是不断的更新、流动,不只记录过去,更反映未来发展的趋势。过去,较少的数据量限制了发现问题的能力,而现在,随着数据的不断积累,通过简单的统计学方法就可能找到数据的相关性,找到事物发生的规律,指导人们的决策。

(三)数据显示

数据显示是将数据经过分析得到的结果以可见或可读形式输出,以方便用户获取相关信息。对于传统的结构化数据,可以采用数据值直接显示、数据表显示、各种统计图形显示等形式来表示数据,而大数据处理的非结构化数据,种类繁多,关系复杂,传统的显示方法通常难以表现,大量的数据表、繁乱的关系图可能使用户感到迷茫,甚至可能误导用户。利用计算机图形学和图像处理的可视计算技术成为大数据显示的重要手段之一,将数据转换成图形或图像,用三维形体来表示复杂的信息,直接对具有形体的信息进行操作,更加直观,方便用户分析结果。若采用立体显示技术,则能够提供符合立体视觉原理的绘制效果,表现力更为丰富。对于传统的数据表示方式,图表、数据通常是二维的,用户与计算机交互容易,而通过三维表现的数据,通常由于数据过于复杂,难以定位而交互困难,可以通过最

41

马建光等:大数据的概念、特征及其应用

近兴起的动作捕捉技术,获取用户的动作,将用户与数据融合在一起,使用户直接与绘制结果交互,便于用户认识、理解数据。数据显示以准确、方便的向用户传递有效信息为目标,显示方法可以根据具体应用需要来选择。

(四)实时处理数据的能力

大数据需要充分、及时地从大量复杂的数据中获取有意义的相关性,找出规律。数据处理的实时要求是大数据区别于传统数据处理技术的重要差别之一。一般而言,传统的数据处理应用对时间的要求并不高。运行1-2天获得结果依然是可以接受的。而大数据领域相当大的一部分应用需要在1秒钟内或瞬间内得到结果,否则相关的处理结果就是过时的、无效的。先存储后处理的批处理模式通常不能满足需求,需要对数据进行流处理。由于这些数据的价值会随着时间的推移不断减少,实时性成了此类数据处理的关键。而数据规模巨大、种类繁多、结构复杂,使得大数据的实时处理极富挑战性。数据的实时处理要求实时获取数据,实时分析数据,实时绘制数据,任何一个环节慢都会影响系统的实时性。当前,互联网络以及各种传感器快速普及,实时获取数据难度不大;实时分析大规模复杂数据是系统的瓶颈,也是大数据领域亟待解决的核心问题;数据的实时绘制是可视计算领域的热点问题,GPU以及分布式并行计算的飞速发展使得复杂数据的实时绘制成为可能,同时数据的绘制可以根据实际应用和硬件条件选择合适的绘制方式。

五、大数据面临的挑战

当今社会,互联网络和传感器技术飞速发展,大规模非结构化数据快速积累,适应时代发展的大数据理论和技术其前瞻性是显而易见的,但同时,大数据的概念也有过分炒作的可能。大数据这种新的理念一出现,就出现了大数据当立,传统方案当下的论调,似乎大数据是万能的,传统的数据分析、处理方法可以淘汰了,以数据为中心,当数据多到一定程度时,用最简单的算法就可以得到结果,不需要关注算法的优劣,只需关注数据的质量,大数据带来的巨大运算量可以由计算优势来应对。实际上,大数据是一种新兴的理论,大数据的概念、技术、方法还远不成熟,在其发展的过程中还将面临多种挑战,不应过分夸大其先进性。

(一)不能完全代替传统数据

当前大数据尚不能完全取代传统结构化数据,尽管大数据关注的非结构化数据的绝对数据量占总数据量的75%,但由于非结构化数据的价值偏低,有效的非结构化数据与结构化数据相比并不占绝对优势,对于某些特定的应用,结构化数据仍然占据主导地位。对于互联网、社交网络、传感器网络等应用,利用大数据分析可以更好的分析相关的非结构化海量数据,因此前面所述的EMC、Google、Facebook等面临数据爆炸的商业巨头积极推动大数据技术发展。而对于传统的结构化数据密集型的应用,相关研究已经持续了几十年,传统数据处理方法可以很好的处理这些结构化数据,对于这些应用则没有必要应用大数据相关技术,没有必要盲目的追逐潮流。此外,商业上一些所谓大数据应用,甚至就是对原来技术进行新的包装,并没有革命性的突破。大数据当立,传统方案当下的论调当前并不准确,非结构化数据完全替代传统数据尚需时日,用户需要根据实际应用需要选择合适的数据处理方式。

(二)数据保护

大数据时代,互联网络的发展使得获取数据十分便利,给信息安全带来了巨大的挑战。当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长。据IDC统计[15]:2010年仅有不到1/3的数据需要保护,到2020年这一比例将超过2/5;2012年的统计显示,虽然有35%的信息需要保护,但实际得到保护的不到20%。在亚洲、南美等新兴市场,数据保护的缺失更加严重。首先个人隐私更容易通过网络泄露,随着电子商务、社交网络的兴起,人们通过网络联系的日益紧密,将个人的相关数据足迹聚集起来分析,可以很容易获取个人的相关信息,隐私数据就可能暴露,而数据在网络上的发布机制使得这种暴露似乎防不胜防;在国家层面,大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明,美国发布大数据研发计划,大力发展大大数据技术就

51

国防科技2013年第2期(总第279期)

有增强国家安全方面的战略考量。

(三)相关性预知

大数据时代,人们不再认为数据是静止和陈旧的,而是流动的、不断更新的。大数据是人们获得新的认知,创造新的价值的源泉,通过分析数据的相关性可能预知事物的发展方向。但是从数据来的结论不一定能反映真实,比如随着数据的增多,会带来部分错误的数据,使得数据价值大大降低,影响分析的结果,甚至可能得出错误的结论。此外,大数据获取的统计学上的宏观结论,对于一些微观的问题并没有意义,比如抛硬币,抛的次数越多,得到正反两面的次数越接近,概率越接近0.5,但不管已经抛了多少次,还是不能分析出下一次得到正面还是反面。因此,不能希望通过大数据可以预知一切。

六、结语

随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增长,数据样式高度复杂,为人类认识世界、改造世界提供了重要的资源,企业和个人通过网络可以大规模的收集和分析数据,也可以产生、发布数据,个体在互联的网络中既是数据的消费者又是数据的生产者,大规模生产、分享、应用数据的大数据时代已经来临。与此同时,数量巨大、种类繁多的数据给传统的数据获取、分析、处理、存储、检索技术带来了挑战,大数据成为广泛关注且亟待解决的热点问题,并已经开始影响社会的发展与人们的日常生活。然而大数据的概念和相关技术还远未成熟,尚存在着一定的争议,面临着诸多挑战,甚至有人认为大数据有过分炒作的可能。本文从几种常见的描述大数据的概念出发,分析大数据的典型的特征,依据这些特征来讨论大数据技术可能的要解决的核心问题,最后讨论了大数据可能要面临的多种挑战。

大数据的概念来源于、发展于美国,并向全球扩展,必将给我国未来的科技与经济发展带来深远影响。根据IDC统计,目前数据量在全球比例为:美国32%、西欧19%、中国13%,预计到2020年中国将产生全球21%的数据,我国是仅次于美国的数据大国,而我国大数据方面的研究尚处在起步阶段,如何开发、利用保护好大数据这一重要的战略资源,是我国当前亟待解决的问题。

[参考文献]

[1]Obama Administration Unveils“Big Data”Initative:Announces$200Million in New R&D Investments.

Office of Science and Technology Policy Executive

Office of the President.2012.5.

[2]David Reinsel,John Gantz.The Digital Universe in 2020:Big Data,Bigger Digital Shadows,and Biggest

Growth in the Far East.2012,12.

[3]Tony Hey,Stewart Tansley.The Fourth Paradigm:Data-Intensive Scientific Discovery.Microsoft,

2009.10.

[4]托夫勒.第三次浪潮[M].北京:中信出版社,2006.[5]Big Data.Nature,2008,455(7209):1-136.

[6]Dealing with data.Science,2011,331(6018):639-806.

[7]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域———大数据的研究现状与科学

思考[J].中国科学院院刊.2012(06):647-657.[8]孟小峰,慈祥.大数据管理概念技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[9]覃雄派,王会举,杜小勇,王珊.大数据分析———RDBMS与MapReduce的竞争与共生[J].软件学

报,2012,23(1):32-45.

[10]王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2012,34(10):1741-

1752.

[11]维克托·迈尔-舍恩伯格.大数据时代[M].上海:浙江人民出版社,2012.

[12]Martin Klubeck.量化:大数据时代的企业管理[M].北京:人民邮电出版,2013.

[13]朱志军,闫蕾.转型时代丛书:大数据·大价值、大机遇、大变革[M].北京:电子工业出版社,2012.[14]Big data,http://en.wikipedia.org/wiki/Big_data.[15]Benjamin Woo World wide Big Data Technology and Services2012–2015Forecast.2012.5[16]Big data

http://www.gartner.com/it-glossary/big-data.

61

马建光等:大数据的概念、特征及其应用

71

The Concept,Characteristics and Application of Big Data

Ma Jian-guang,JIANG Wei

(1.School of Humanities and Social Sciences,National University of Defense Technology,Changsha,Hunan410073,China)Abstract:With the rapid development of the Internet,especially the wide application ofsocial networking,the Internet of Things,cloud computingas well as a variety of sensorsin recent years,unstructured data,which have large numbers,varieties and also timeliness,continue to emerge.The importance of the data becomes more prominent.It is difficultto use the traditional data storage and analysis technology to handle large volumes of unstructured information in a real-time manner,andthat’s how the concept of big data came into being.How to obtain,aggregate and analyzebig data becomesa hot issue.This paper introduces the concept and characteristicsof big data,analyzes the core issues,such as the correlation analysis,real-time processing,etc.,and finally discussesmany challengeslarge data may face.

Key words:big data,unstructured information,resolve of the core issues,future challenges

大数据结构的基本概念

实用标准文档 文案大全第1章数据结构基础 结构之美无处不在: 说到结构,任何一件事物都有自己的结构,就如可以看得见且触摸得到的课桌、椅子,还有看不见却也存在的化学中的分子、原子。可见,一件事物只要存在,就一定会有自己的结构。一幅画的生成,作家在挥毫泼墨之前,首先要在数尺素绢之上做结构上的统筹规划、谋篇布局。一件衣服的制作,如果在制作之前没有对衣服的袖、领、肩、襟、身等各个部位周密筹划,形成一个合理的结构系统,便无法缝制出合体的衣服。还有教育管理系统的结构、通用技术的学科结构和课堂教学结构等。试想一下,管理大量数据是否也需要用到数据结构呢? 本章知识要点: 数据结构的基本概念 数据类型和抽象数据类型 算法和算法分析 1.1 数据结构的基本概念 计算机科学是一门研究数据表示和数据处理的科学。数据是计算机化的信息,它是计算机可以直接处理的最基本和最重要的对象。无论是进行科学计算,还是数据处理、过程控制、对文件的存储和检索以及数据库技术等计算机应用,都是对数据进行加工处理的过程。因此,要设计出一个结构良好而且效率较高的程序,必须研究数据的特性、数据间的相互关系及其对应的存储表示,并利用这些特性和关系设计出相应的算法和程序。 计算机在发展的初期,其应用围是数值计算,所处理的数据都是整型、实型和布尔型等简单数据,以此为加工、处理对象的程序设计称为数值型程序设计。随着计算技术的发展,计算机逐渐进入到商业、制造业等其他领域,广泛地应用于数据处理和过程控制中。与此相对应,计算机所处理的数据也不再是简单的数值,而是字符串、图形、图像、语音和视频等复杂的数据。这些复杂的数据不仅量大,而且具有一定的结构。例如,一幅图像是一个由简单数值组成的矩阵,一个图形中的几何坐标可以组成表。此外,语言编译过程

数据库基本概念

数据库基本概念 引言 本章的目标是讲解数据库研究人员常常要使用到的一些理论和术语。我所在的工作组集中了一批以开发性能优异的数据库系统为谋生手段的精英,数据库理论乍看起来与我们的具体工作相距甚远。 是否很有必要学习有关数据库理论方面的知识可能是留给你思考的一个问题。我们说,理解一种技术的基本原理是非常重要的。这就好比把你的汽车交给一个不懂火花塞工作原理的机械师,或是坐在一架由不懂飞行理论的驾驶员的飞机上。如果你不懂数据库设计的相关理论,又怎能指望用户登陆门请你设计系统呢? 研究人员所用的某些术语和概念令我们感到困惑,部分原因是数学基础的问题。有一些术语,大多数程序员理解为一种含义,而实际上是完全不同的另一种含义。为了能设计合理的系统,了解关系数据库理论是十分重要的。 为了搞清楚研究人员的专业术语,我们需要学习一些关系数据库理论中较浅显的内容,并且同我们所熟知的SQL概念进行比较。许多书中都讲解了这些内容,所以并不打算过于深入地探讨理论。我们只提供一些基本且实用的数据库概念。 本章将主要从面向SQL的角度介绍关系理论。我们将常常涉及相关理论的具体实现,尽管这超出了本书的范围,但却是难以避免的。然而我们不会陷入实现的细节,仅仅给出一个概述。更进一步的内容,参看第一章提到的参考书目。 在本章中,我们将会看到下列内容: ?关系模型——考察相关的技术术语:我们将在后面的章节中构造它们 ?其他数据库概念的定义 关系模型 正像第1章中提到的,E.F.Codd早在1970年就提出了关系模型的概念。在这一节中,我们将从SQL Server 的角度出发,考察一些在关系模型中比较重要的内容。 正像我们所看到的那样,SQL Server 与关系模型有很多共性的东西,但

大大数据概念、技术、特点、应用与案例

大数据 目录 一、大数据概念 (1) 二、大数据分析 (2) 三、大数据技术 (3) 四、大数据特点 (4) 五、大数据处理 (4) 六、大数据应用与案例分析 (6) 一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"

指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 二、大数据分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了 2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,

大数据基本概念及技术

大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。 一、基本概念 在讲什么是大数据之前,我们首先需要厘清几个基本概念。 1.数据 关于数据的定义,大概没有一个权威版本。为方便,此处使用一个简单的工作定义:数据是可以获取和存储的信息。 直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。

不过数值是所有数据中最容易被处理的一种,许多和数据相关的概念,例如下面的数据可视化和数据分析,最早是立足于数值数据的。 传统意义上的数据一词,尤其是相对于今天的“大数据”的“小数据”,主要指的就是数值数据,甚至在很多情况下专指统计数值数据。这些数值数据用来描述某种客观事物的属性。 2.数据可视化 对应英语的data visulization(或可译为数据展示),指通过图表将若干数字以直观的方式呈现给读者。比如非常常见的饼图、柱状图、走势图、热点图、K线等等,目前以二维展示为主,不过越来越多的三维图像和动态图也被用来展示数据。 3.数据分析 这一概念狭义上,指统计分析,即通过统计学手段,从数据中精炼对现实的描述。例如:针对以关系型数据库中以table形式存储的数据,按照某些指定的列进行分组,然后计算不同组的均值、方差、分布等。再以可视化的方式讲这些计算结果呈现出来。目前很多文章中提及的数据分析,其实是包括数据可视化的。

数据库的4个基本概念

数据库的4个基本概念 1.数据(Data):描述事物的符号记录称为数据。 2.数据库(DataBase,DB):长期存储在计算机内、有组织的、可共享的大量数据的集合。 3.数据库管理系统(DataBase Management System,DBMS 4.数据库系统(DataBase System,DBS) 数据模型 数据模型(data model)也是一种模型,是对现实世界数据特征的抽象。用来抽象、表示和处理现实世界中的数据和信息。数据模型是数据库系统的核心和基础。 数据模型的分类 第一类:概念模型 按用户的观点来对数据和信息建模,完全不涉及信息在计算机中的表示,主要用于数据库设计现实世界到机器世界的一个中间层次 实体(Entity): 客观存在并可相互区分的事物。可以是具体的人事物,也可以使抽象的概念或联系 实体集(Entity Set): 同类型实体的集合。每个实体集必须命名。 属性(Attribute): 实体所具有的特征和性质。 属性值(Attribute Value): 为实体的属性取值。 域(Domain): 属性值的取值范围。 码(Key): 唯一标识实体集中一个实体的属性或属性集。学号是学生的码 实体型(Entity Type): 表示实体信息结构,由实体名及其属性名集合表示。如:实体名(属性1,属性2,…) 联系(Relationship): 在现实世界中,事物内部以及事物之间是有联系的,这些联系在信息世界中反映为实体型内部的联系(各属性)和实体型之间的联系(各实体集)。有一对一,一对多,多对多等。 第二类:逻辑模型和物理模型 逻辑模型是数据在计算机中的组织方式 物理模型是数据在计算机中的存储方式 数据模型的组成要素 数据模型通常由数据结构、数据操作和数据的完整性约束条件三部分组成 关系模型(数据模型的一种,最重要的一种) 从用户观点看关系模型由一组关系组成。每个关系的数据结构是一张规范化的二维表。 ?关系(Relation):一个关系对应通常说的一张表。 ?元组(Tuple):表中的一行即为一个元组。 ?属性(Attribute):表中的一列即为一个属性,给每一个属性起一个名称即属性名。 ?码(Key):表中的某个属性组,它可以唯一确定一个元组。 ?域(Domain):一组具有相同数据类型的值的集合。属性的取值范围来自某个域。

大数据概述及基本概念

考试:大数据概述及基本概念 试卷年份:2015年 题量:10题 答题时间:分钟 总分:100分 合格线:60分 1 【单选】下列不属于商业大数据类型的是() A. 传统企业数据 B. 机器和传感器数据 C. 社交数据 D. 电子商务数据 A B C D 正确答案:D 2 【单选】信息技术是指有关信息的收集、识别、提取、变换、存贮、传递、处理、检索、检测、分析和利用等的技术。凡涉及到这些过程和技术的工作部门,都可称作()部门 A. 技术 B. 研究 C. 信息 D. 管理 A B C D 正确答案:C 3 【单选】数据本身所承载的信息内容是指() A. 内容维度 B. 关系维度 C. 时空维度 D. 维度的交叉综合 A B

C D 正确答案:A 4 【多选】大数据平台的三个重要的技术部分有() A. 数据交易技术 B. 数据交互技术 C. 数据存储技术 D. 数据处理技术 A B C D 正确答案:A B D 5 【多选】互连网上出现的海量信息可以划分为三种,分别为() A. 结构化信息 B. 非结构化信息 C. 半结构化信息 D. 特殊化信息 A B C D 正确答案:A B C 6 【多选】“大数据”的特点是() A. 数据体量大 B. 数据类别大 C. 数据处理速度快 D. 数据真实性高 A B C D 正确答案:A B C D 7 【判断】结构化数据是指不方便用数据库二维逻辑表来表现的数据()

A. 正确 B. 错误 正确 错误 正确答案:错误 8 【判断】数据存储是大数据平台的根本。没有了存储平台,数据也就没有了载体() A. 正确 B. 错误 正确 错误 正确答案:正确 9 【判断】可视化是给机器看的,数据挖掘就是给人看的() A. 正确 B. 错误 正确 错误 正确答案:错误 10 【判断】全球数据的90%产生于过去2年内() A. 正确 B. 错误 正确 错误 正确答案:正确

大数据概念

大数据概念 大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产[1] 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2] 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety (多样)、Value(价值)、Veracity(真实性)。 应用学科:计算机,信息科学,统计学 适用领域范围: BI,工业4.0,云计算,物联网,互联网+, 人工智能 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。 意义 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。 大数据的价值体现在以下几个方面: 1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销 2) 做小而美模式的中长尾企业可以利用大数据做服务转型 3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。

大数据的概念、技术及应用

大数据的概念、技术及应用1 概述 1.1 大数据的概念和特点 1.1.1 大数据的基础 1.1.2 大数据如何“与时俱进”? 1.1.3 大数据发展趋势 人工智能 物联网结合 各个行业的深入 1.2 大数据的技术基础 1.2.1 从数据仓库开始 1.2.2 HADOOP 生态圈 1.2.3 与云计算的关系 1.2.4 数据运维能力提升 1.3 大数据的应用举例 1.3.1 大数据提升客户分析能力 1.3.2 大数据提升产品分析能力 1.3.3 大数据提升管理水平 1.3.4 大数据提升各行业“智慧” 1.4 大数据下的人工智能(AI) 1.4.1 什么是人工智能

1.4.2 人工智能改变哪些行业? 1.4.3 大数据下的人工智能有何不同? 1.4.4 人工智能的“颠覆” 1.5 大数据如何精细化管理 1.5.1 量化管理的引出 1.5.2 大数据如何提升“量化”的维度和深度1.5.3 从艺术到技术 1.5.4 自动驾驶到自动管理? 1.6 电信企业的大数据“商机” 1.6.1 从网络运营到数据运营 1.6.2 提炼“内功” 1.6.3 提升外部管理能力 1.6.4 扩展增值产品运营市场 2 大数据的行业解决方案应用案例 2.1 基础应用范围 2.2 石油行业应用案例 2.3 交通行业应用案例 2.4 旅游行业应用案例 2.5 金融行业应用案例 2.6 电信行业应用案例 2.7 互联网行业应用案例等

3 大数据技术基础 3.1 从数据仓库开始 3.1.1 数据仓库的“集中” 3.1.2 数据仓库的模型标准化3.1.3 大数据的演进 3.2 HADOOP 生态圈 3.2.1 开源社区概述 3.2.2 开源改变了什么?3.2.3 HADOOP 生态圈内容3.2.4 HADOOP 的技术原则3.2.5 HADOOP 的运维3.3 HADOOP 基础 3.3.1 HDFS 的原理 3.3.2 MAP/REDUCE 原理3.3.3 YARN 原理 3.4 HIVE/HBASE 技术 3.4.1 HIVE 的原理 3.4.2 HBASE 的原理 3.4.3 两者的关系 3.5 SPARK 技术 3.5.1 基本原理

关系数据库的基本概念应用

★事业单位考试专用★ 数据库 1.数据模型(Data Models):在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。通俗地讲数据模型就是现实世界的模拟。 2.数据模型应满足三方面要求:能比较真实地模拟现实世界;容易为人所理解;便于在计算机上实现。 3.数据模型:按计算机的观点对数据建模,主要用于DBMS的实现。一般有层次,网状,关系三种。 4.矩形:表示实体集;菱形:表示联系集;线:连接实体集与联系集或属性与实体集;椭圆:表示属性;下划线:主码属性。 5.常用数据模型:层次模型、网状模型、关系模型、面向对象模型。 6.层次模型的存储结构:邻接法:前序穿线树;链接法:用指针表示层次关系(子女-兄弟链接法,层次序列链接法)。(众) 7.网状模型存储结构:链接法:用指针表示层次关系(单链,双链,环链等)。(S_XH,C_KCH) 8.关系模型中,关系的每一个分量必须是一个不可分的数据项。 9.SQL语言的REVOKE语句实现安全性数据控制功能。 10.数据仓库通常采用三层体系结构、底层的数据仓库服务器一般是一个关系型数据库系统、数据仓库前端分析工具中包括报表工具。 11.Linux是一套免费使用和自由传播的类Unix操作系统、Linux提供强大的应用程序开发环境,支持多种编程语言、Linux提供对TCP/IP协议的完全支持。 12.Solaris是SUN公司的高性能Unix,Solaris运行在许多RISC工作站和服务器

上,Solaris支持多处理、多线程。 13.Unix系统的特色:交互的分时系统、以全局变量为中心的模块结构、可以分成内核和外壳。Unix系统中进程由三部分组成:进程控制块,正文段和数据段。Unix系统中,输入/输出设备被看成是特殊文件。 14.属于企业级的大型数据库管理系统的主要有Oracle、DB2、Informix、Sybase 、SQL Server。 15.DBA是数据库系统的一个重要组成,有很多职责:定义数据库的存储结构和存取策略、定义数据库的结构、定期对数据库进行重组和重构。 16.对于数据量大的网站,应选用的数据库是DB2。 17.关系代数表达式的优化策略中,首先要做的是尽早执行选择运算。

数据库系统的基本概念

1.4 数据库设计基础 考点17 数据库系统的基本概念 1、数据、数据库、数据库管理系统和数据库系统 (1)数据 数据(Data)是描述事物的符号记录。 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。 (2)数据库 数据库(Database, DB)是指长期存储在计算机内的、有组织的、可共享的数据集合。 数据库是一个单位或是一个应用领域的通用数据处理系统,他存储的是属于企业和事业部门、团体和个人的有关数据的集合。数据库中的数据是从全局观点出发建立的,他按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。 数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据

库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。 (3)数据库管理系统 数据库管理系统(Database Management System, DBMS)是数据库的机构,它是一个系统软件,负责数据库中的数据组织、数据操纵、数据维护、控制及保护和数据服务等。 数据库管理系统的主要类型有4种:文件管理系统,层次数据库系统,网状数据库系统和关系数据库系统,其中关系数据库系统的应用最为广泛。 数据库管理系统是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过它访问数据库中的数据,数据库管理员也通过它进行数据库的维护工作。它可使多个应用程序和用户用不同的方法在同时或不同时刻去建立,修改和询问数据库。DBMS 提供数据定义语言DDL(Data Definition Language)与数据操作语言DML(Data Manipulation Language),供用户定义数据库的模式结构与权限约束,实现对数据的追加、删除等操作。 (4)数据库系统 数据库系统(Database System, DBS)是指引进数据库技术后的整个计算机系统,能够实现有组织地、动态地存储大量相关数据,

大数据的概念、特征及其应用

马建光等:大数据的概念、特征及其应用 (2013-09-05 16:15:35) 转载▼ 分类:学习资料 标签: 杂谈 大数据的概念、特征及其应用 马建光,姜巍 (国防科技大学人文与社会科学学院,湖南长沙410074) 源自:国防科技2013年4月 [摘要]随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。 [关键词]大数据; 非结构化信息; 解决核心问题; 未来挑战 一、引言 自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。 首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计[1],即使在遭遇金融危机的2009 年,全球信息量也比2008 年增长了62%,达到80 万PB ( 1PB 等于10亿GB) ,到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB,) ,并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40 ZB,10年间增长20 倍以上,到2020 年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。 如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年3 月22 日,奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”[2],欲大力推

大数据的定义及基本特征

大数据的定义及基本特征 无论是2001年梅塔集团分析师道格〃莱尼提出的大数据技术萌芽,还是2008年IBM公司的史密斯首次以“BIG DATA”的名词初步定义了大数据的含义,时至今日,科学届对大数据还没有给出一个完整准确的定义,不同领域的科学家们都从不同的视角诠释了大数据的基本含义。但是,纵观大数据发展的前世今生,以及今后的发展趋势,大数据的含义可以归结为: 大数据是人类认知世界的技术理念,是在信息技术支撑下,利用全新的数据分析处理方法,在海量、复杂、散乱的数据集合中提取有价值信息的技术处理过程,其核心就是对数据进行智能化的信息挖掘,并发挥其作用。 有人说世界的本质就是数据,在当今充满数字化数据的时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的海量数据,为了在数据中理解信息内容,发现信息与信息之间的关系,人类从没有像今天这样对数据有那么深刻的认识,实际上,我们应该重新认识数据的特征:(1)海量的数据规模(Volume)。具有当前任何一种单体设备难以直接存储、管理和使用的数据量,大数据中所说的“大”也包括数据的全面性。 (2)快速的数据流转和动态的数据变化(Velocity)。数据会随着时间和环境发生变化。

(3)多样的数据类型(Variety)。刻画特定事物特征或规律的数据是以多种形式存在的。 (4)巨大的数据价值(Value)。数据就是资源,许多看似杂乱无章的数据,其潜在蕴含着巨大的价值,数据的价值是由不同的应用目的而体现。 (5)智能化数据挖掘(Intelligence)。无论数据有多少,还是以何种形式呈现,人类要想从数据中发现事物的真相,必须应用全新的方法分析数据,以得到有价值的信息。

大数据的概念

大数据的概念、算法及应用 一、大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。 大数据的预处理 主要完成对已接收数据的辨析、抽取、清洗等操作。 (1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。 (2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。 大数据带来的数学问题 在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合。 ?大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响 ?大数据表示——表示决定存储、表示影响算法效率 ?大数据不一致问题——导致算法失效和无解、如何消解不一致 ?大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加 ?大数据中的不确定维问题——多维度数据并存、按任务定维难 ?大数据中的不适定性问题——高维导致问题的解太多难以抉择 大数据的特征 ?稠密与稀疏共存:局部稠密与全局稀疏 ?冗余与缺失并在:大量冗余与局部缺失 ?显式与隐式均有:大量显式与丰富隐式 ?静态与动态忽现:动态演进与静态关联 ?多元与异质共处:多元多变与异质异性 ?量大与可用矛盾:量大低值与可用稀少 目前大数据的外延 大数据规模大小是一个不断演化的指标: 当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB?PB?EB?ZB) 处理大数据的可等待的合理时间依赖任务的目标: 地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内 回到顶部 二、大数据悖论 大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。解决悖论的过程,恰恰是理论和方法

2017继教001-考试:大数据概述及基本概念

考试:大数据概述及基本概念 1 【单选】下列不属于商业大数据类型的是() ? A. 传统企业数据 ? B. 机器和传感器数据 ? C. 社交数据 ? D. 电子商务数据 ? A ? B ? C ? D ?正确答案:D 2 【单选】信息技术是指有关信息的收集、识别、提取、变换、存贮、传递、处理、检索、检测、分析和利用等凡涉及到这些过程和技术的工作部门,都可称作()部门 ? A. 技术 ? B. 研究 ? C. 信息 ? D. 管理 ? A

? B ? C ? D ?正确答案:C 3 【单选】数据本身所承载的信息内容是指() ? A. 内容维度 ? B. 关系维度 ? C. 时空维度 ? D. 维度的交叉综合 ? A ? B ? C ? D ?正确答案:A 4 【多选】大数据平台的三个重要的技术部分有()? A. 数据交易技术 ? B. 数据交互技术 ? C. 数据存储技术

? A ? B ? C ? D ?正确答案:A B D 5 【多选】互连网上出现的海量信息可以划分为三种,分别为()? A. 结构化信息 ? B. 非结构化信息 ? C. 半结构化信息 ? D. 特殊化信息 ? A ? B ? C ? D ?正确答案:A B C 6 【多选】“大数据”的特点是() ? A. 数据体量大

? C. 数据处理速度快 ? D. 数据真实性高 ? B ? C ? D ?正确答案:A B C D 7 【判断】结构化数据是指不方便用数据库二维逻辑表来表现的数据() ? A. 正确 ? B. 错误 ?正确 ?错误 ?正确答案:错误 8 【判断】数据存储是大数据平台的根本。没有了存储平台,数据也就没有了载体()? A. 正确 ? B. 错误 ?正确

数据库的基本概念

1.关系的基本操作:选择、投影、并、差、笛卡尔集。 2.声明变量的语句:declare @XXX (XXX为变量名称) 3.判断并发调度的正确性: (1)可串行性的调度:多个事务的并发执行是正确的,当且仅当其结果与某一次串行的执行这些实物的结果相同。 (2)可串行性:是并发事务调度的准则。按照这个准则,一个给定的并发调度,当且仅当他是可串行化的才认为是正确的调度。 4.事物的四个特性:原子性、一致性、隔离性和持续性。 5.定义视图: Create view <视图名称>[(列名)[,(列名)]] As <子查询> [with check option] 6.关系数据理论: 7.范式: (1)第二范式:若R∈1NF,且每一个非主属性完全依赖于码,则R∈2NF (2)第三范式:非主属性中不存在传递关系。 8.角色、权限 (1)创建角色:create role <角色名> (2)给角色授权:create <权限> on <对象类型> 对象名to 角色。 9.设计中概念模型描述什么:实体、属性、码、实体型、实体集、联系。 10.关系的完整性:实体完整性、参照完整性、用户定义的完整性。 11.读锁和写锁的定义: (1)写锁:又称“排它锁”,若事物T对数据对象A加上X锁,则只允许T读取和修改A,其他任何事物都不能对A加任何类型的锁,直到T释放A上的锁。 (2)读锁:又称“共享锁”,若事物T对数据对象A加上S锁,则事物T可以读A但不能修改A,其他事物只能对A加S锁,而不能加X锁,直到T释放A上的S锁。 简答: 1.关系模式:判断是第几范式,分析指出主键、外键P175 例题4 2.举例说明参照完整性(外键取值的几种情况)P49例题1,例题2,例题3 3.数据库的设计步骤、任务。 (1)需求分析(2)概念结构设计(3)逻辑结构设计(4)物理结构设计 (5)数据库实施(6)数据库运行和维护 4.描述并发调度中锁的概念、作用 (1)概念:事物T对某个数据对象操作之前,先向系统发出申请,对其加锁。加锁后的事物T就对该数据对象有了一定的控制,在事物T释放它的锁之前,其他的事物不能更新此数据对象。 (2)作用:解决了事物并发过程中可能出现的丢失修改、不可重复读、读“脏”数据。

大数据概念、技术及应用

大数据概念、技术及应用 ——段方老师 1 概述 1.1 大数据的概念和特点 1.1.1 大数据的基础 1.1.2 大数据如何“与时俱进”? 1.1.3 大数据发展趋势 人工智能 物联网结合 各个行业的深入 1.2 大数据的技术基础 1.2.1 从数据仓库开始 1.2.2 HADOOP 生态圈 1.2.3 与云计算的关系 1.2.4 数据运维能力提升 1.3 大数据的应用举例 1.3.1 大数据提升客户分析能力 1.3.2 大数据提升产品分析能力 1.3.3 大数据提升管理水平

1.3.4 大数据提升各行业“智慧” 1.4 大数据下的人工智能(AI) 1.4.1 什么是人工智能 1.4.2 人工智能改变哪些行业? 1.4.3 大数据下的人工智能有何不同? 1.4.4 人工智能的“颠覆” 1.5 大数据如何精细化管理 1.5.1 量化管理的引出 1.5.2 大数据如何提升“量化”的维度和深度1.5.3 从艺术到技术 1.5.4 自动驾驶到自动管理? 1.6 电信企业的大数据“商机” 1.6.1 从网络运营到数据运营 1.6.2 提炼“内功” 1.6.3 提升外部管理能力 1.6.4 扩展增值产品运营市场 2 大数据的行业解决方案应用案例 2.1 基础应用范围 2.2 石油行业应用案例 2.3 交通行业应用案例 2.4 旅游行业应用案例

2.5 金融行业应用案例 2.6 电信行业应用案例 2.7 互联网行业应用案例等 3 机器学习基础 3.1 多维分析方法 3.1.1 OLAP 分析 3.1.2 上钻和下钻 3.1.3 用OLAP 分析问题 3.2 分析算法 3.2.1 回归算法 线性回归 逻辑回归 3.2.2 决策树算法 C4.5 算法 CART 算法 3.2.3 贝叶斯算法 朴素贝叶斯算法 BBN(Bayesian Belief Network)算法 3.2.4 基于核的算法 支持向量机SVM 算法 线性判别分析(Linear Discriminate Analysis ,LDA)

大数据概念及应用未来

大数据概念及应用未来 麦肯锡是最早提出大数据时代已经到来:“各个行业和领域都已经被数据给渗透了,目前数据已成为非常重要的生产因素了。对于大数据的处理和挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来。”大数据概念最早是IBM定义的,将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。 全世界每天都有几十亿人使用计算机、平板电脑、手机和其它数字设备产生海量数据。据Forrester的最新研究显示:在线或移动金融交易、社交媒体、GPS坐标等数据源每天要产生超过2.5X1018的所谓“大数据”。今后几年,数据的增长速度将超越摩尔定律。 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据正成为赢得竞争的关键。 哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1)对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。 对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2)能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。 大数据中的软件技术 大数据技术描述了新一代技术和架构,目的是通过高速捕获、发现和/或分析,经济高效地从种类繁多的大量数据中获益。 目前共有两种顶层分析方法: 1). 分析过去,不预测未来(关联分析) 2). 分析过去,预测未来(具备监督式学习功能的预测分析)。

大数据概念

大数据概念 研究机构Gartner—大数据概念 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无 法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学 家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数 据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪

些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开 源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 大数据分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。 大数据技术

(完整版)大数据时代的数据概念分析及其他

大数据时代的数据概念分析及其他 一、概念: "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 百度概念: 大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity。 研究机构Gartner概念: "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 二、大数据分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 大数据分析的五个基本方面: 1、可视化分析Analytic Visualizations 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者

相关文档
最新文档