大数据及其特点(全文)

大数据及其特点(全文)
大数据及其特点(全文)

大数据及其特点(全文)

胡经国

一、大数据定义

据了解,目前大数据这一概念尚无大家公认的统一定义。下面仅介绍关于大数据定义的常见表述,供读者参考。

表述1

大数据(Big Data)是指一个数据集,它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。

Big Data referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI May,2011 大数据是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。

Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia

表述2

大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

表述3

大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。

表述4

美国咨询公司麦肯锡给出的大数据定义:大数据是指其大小超出常规数据库工具的采集、存储、管理和分析能力的数据集。

由于传统数据库有效工作的数据上限一般为10~100TB;因而10~100TB 通常成为大数据的“门槛”。

无独有偶,IDC(国际数据公司)在给大数据做定义时,也把大数据的“门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导对大数据的判断总是好事。

表述5

维基百科给出的大数据定义:所谓大数据在当今的互联网业界是指这样一种现象:一个网络公司日常运营所生成和积累的用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不能用我们以所熟知的多少G和多少T为单位来衡量,而要以P、E或Z为计量单位来衡量,所以称之为大数据。

表述6

国际数据公司(IDC)是从大数据的4V特点来定义的,即:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

表述7

大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数据组。在企业对企业销售的情况下,这些数据可能来源于社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据并非公司顾客关系管理数据库的常态数据组。

表述8

大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到掘取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。

表述9

故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。数据具有较小的价值;而数据集合因为数量众多,量变引起质变,所以其价值无可估量。

表述10

大数据是指所有数据的集合,具有4V特点,即:数据量大(Volume)、数据类型多样(Variety)、生成速度快(Velocity)、蕴含巨大价值(Value)。

二、记者访谈:大数据有多大

据报道,有记者就大数据有关问题与有关专家进行了访谈。现将其访谈录介绍如下,供读者参考。

记者:对于大数据有一个形象的说法:现在即使是一个孩子也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义饱蘸激情投入工作。大数据这个概念,看似从字面就能理解;但是确实以前没有这么火过。首先,我们想知道的是,大数据到底有多大?

专家:互联网搜索、电子商务交易平台和微博等社交网站所产生的各种数据内容,经常被用来证明大数据之大。其实,在传统产业和我们的生活中,大数据比比皆是。

以北京市交通智能化分析平台为例,它的数据源是路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租车等运输行业等。4万辆浮动车每天产生2000万条记录;交通卡刷卡记录每天1900万条;手机定位数据每天1800万条;出租车运营数据每天100万条;高速ETC(Electronic Toll Collection,(不停车)电子收费(系统))数据每天50万条……这些信息,从数据体量和速度上,都达到了大数据的规模。

发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能做的机会。这也正是大数据最主要的特证。

比如,交通状况与其它领域的数据都存在较强的关联性。研究发现,可以从供水系统数据中发现,晨洗的高峰时间加上一个偏移量,通常是40~45分钟,这就是交通早高峰时间。同样,可以从电网数据中,统计出傍晚办公楼集中关灯的时间加上偏移量来估计出晚上的堵车时间。国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。

记者:IT业界所指的数据诞生不过60多年。而一直到个人电脑普及以前,由于存储、计算和分析工具的技术和成本限制,因而许多自然界和人类社会值得记录的信息,并未形成数据。大数据到底有没有一个“门槛”?关于大数据的一些定义准确吗?

专家:国际数据统计机构(IDC)对全世界每年创建和复制的信息的体量做了估计和预测:2011年为1.8ZB,2012年为2.8ZB。按照每两年翻一番的速度,2020年将达到40ZB。这个数据怎么算出来的呢?IDC秘而不宣。1.8ZB是什么概念?它相当于4500亿张DVD,或6500万年的高清视频,或1130亿台装满数据的iPad。如果把这些iPad覆盖到足球场并往上堆叠,其高度可达到10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。其实,所有这些数据加起来都不如谷歌的前CEO施密特的下述说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里,人类一共产生了5EB(天知道他是怎么算出来的),而到2010年每两天人类就能产生5EB的数据。

这类数据的预测对于存储和网络企业的投资者来说无疑能提升信心;但是对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状况。

美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据上限,一般来说为10~100TB;因此,10~100TB通常就成为大数据的“门槛”。无独有偶,IDC在给大数据做定义时,也把其“门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导企业对大数据的判断总是好事。

三、大数据的4V特点

大数据的4V特点是指大数据在Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)这4个方面(层面)的特点。

⑴、Volume(大量)

Volume(大量)是指大数据的体量(规模、容量或尺寸)巨大,从TB级别跃升到PB级别。

二进制信息最小基本单位为B it(比特),按顺序其所有单位为:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。其中,

1 Byte(字节)=8bit

其它按照进率1024(=210)来计算,即:

1KB(Kilobyte,千字节)=1024Bytes=1024B

1MB(Megabyte,兆字节,简称兆)=1024KB

1GB(Gigabyte,吉字节)=1024MB

1TB(Terabyte,太字节)=1024GB

1PB(Petabyte,拍字节)=1024TB

1EB(Exabyte,艾字节)=1024PB

1ZB(Zettabyte,泽字节)=1024EB

1YB(Yottabyte,尧字节)=1024ZB

1BB(Brontobyte)=1024YB

1NB=1024BB

1DB=1024NB

⑵、Variety(多样)

Variety(多样)是指大数据类型繁多,如网络日志、视频、图片、地理位置信息等等。

⑶、Velocity(高速)

Velocity(高速)是指大数据处理速度快,要求满足1秒定律。所谓1秒定律,或称秒级定律,是指对大数据处理速度有一定要求,一般要求在秒级时间范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统数据挖掘技术之间的最大区别。

⑷、Value(价值)

Value(价值)是指大数据价值密度低。以视频为例,在连续不间断视频监控过程中可能有用的数据仅仅只有一两秒。

虽然对大数据的特点有不同说法,但是业界一般认为,大数据具有4V特点,即:大数据在Volume(容量)、Variety(种类)、Velocity(速度)和最重要的Value(价值)这4个方面(层面)的特点。

⑴、Volume(容量)

Volume(容量)是指大数据巨大的数据量与数据完整性。IT业界所指的数据诞生不过60多年。而一直到个人电脑普及之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号并未形成数据。几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但是那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。

尽管业界对达到怎样的数量级才算是大数据并无定论,但是在很多行业的应用场景里,数据集本身的大小并不是最重要的,而是否具有完整性才是最重要的。

⑵、Variety(种类)

Variety(种类)意味着要在海量、种类繁多的数据之间发现其内在关联。在互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web 2.0时代,个人计算机用户不仅可以通过网络获取信息,而且已成为信息的制造者和传播者。在这个阶段,不仅是数据量开始爆炸式增长,数据种类也开始变得繁多。

这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据之间的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出正确的判断。

⑶、Velocity(速度)

Velocity(速度)可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰和迫切。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上。还可以用LBS(基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近。

如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接。这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。

⑷、Value(价值)

比前面3个特点更重要的就是Value(价值)。它是大数据的最终意义,即:获得洞察力和价值。大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据

分析为信息,将信息提炼为知识,最后以知识促成决策和行动。

就大数据的价值而言,就像在沙子里淘金,大数据规模越大,真正有价值的数据相对越少。

所以,真正好的大数据系统,重要的不是越多越好,其实越少越好。开始数据要多,最好还是要少,把ZB、PB最终变成一个比特,也就是最后的决策。这才是最关键的。

四、大数据的海量、多样性、高速、易变性

1、海量

企业面临着数据量的大规模增长。例如,IDC最近的报告预测,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。

此外,各种意想不到的来源都能产生数据。例如,从巴塞罗那至沙特首府利雅得的单程航行中,一架商用喷气式飞机上收集的传感器数据量将超过1PB。当用一次飞行的数据量,乘以每天所有飞行的航班数,数据总量将非常惊人。

2、多样性

普遍认为,人们使用互联网搜索是形成数据多样性的主要原因。这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型所造成的。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。

3、高速

高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们对信息的实时需求。

根据IMS Research研究机构关于数据创建速度的调查,通过跟踪互联网设备的激活量发现,联网设备增长的第二波浪潮正在加速到来。在本轮增长以后,将涌现更多新型互联网设备增长的浪潮。据预测,到2020年,全球将拥有220亿部互联网连接设备。

4、易变性

大数据具有多层结构。这意味着大数据会呈现出多变的形式和类型。与传统的业务数据相比较,大数据存在不规则和模糊不清的特性,导致很难甚至无法使用传统的应用软件对其进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是,处理数据并从以各种形式呈现的复杂数据中挖掘其价值。

五、大数据的7大特点

有的研究者还归纳出大数据的7大特点,它们是:

1、容量(Volume)

数据的大小决定所考虑的数据的价值和潜在的信息。

2、种类(Variety)

数据类型的多样性。

3、速度(Velocity)

获得数据的速度。

4、可变性(Variability)

妨碍处理和有效地管理数据的过程。

5、真实性(Veracity)

数据的质量。

6、复杂性(Complexity)

数据量巨大,来源多渠道。

7、价值(Value)

合理运用大数据,以低成本创造高价值。

六、大数据的3种特性

1、数据的完整性和综合性

大数据的特性之一是数据的完整性和综合性。

很多业内朋友一谈起大数据,就习惯性地盘点起自己那点存货,或者那些可以直接从自身服务中可以获取的东西。考虑到目前互联网的发展还在非常初级的阶段,现有网络服务都是简化、扭曲、片面地对现实世界的浓缩和裁剪。由此产生的数据是零乱的、破碎的、局部的;其中所含有的含金量是极其有限的。

如果同意这个世界上的万事万物可以而且正在被数据化和网络化,那么由此产生的大数据就必然是完整的和综合的。它不仅包括网络公司通过自身服务所获得的用户行为数据,而且还包括社会的、经济的、政治的、自然的方方面面的数据。这些数据当然分散在不同的企业、机构和政府部门,汇聚整合在一起绝非易事。但是,操作上的困难并不能否定大数据本身的完整性和综合性。

今天之所以讨论大数据时代的到来,是因为互联网发展到目前阶段使得现实世界数据化发展到了一定程度,各种信息终端普及到了一定程度,数据获取的成本降到了一定程度,使得完整和综合的数据不仅是一种理想,也正在变为

现实。

2、数据的开放性和公共性

大数据的特性之二是数据的开放性和公共性。

正是因为完整、综合的大数据难以由一家公司、机构或政府部门所获得,所以大数据必然产生于一个开放的、公共的网络环境之中。这种开放性和公共性的实现,取决于若干个网络开放平台或云服务以及一系列受到法律支持或社会公认的数据标准和规范。任何封闭的或单向获取的数据,都不可能是大数据,无论这些数据的规模有多大。

3、数据的动态性和及时性

大数据的特性之三是数据的动态性和及时性。

天体物理学和理论物理学早就依赖于从宇宙间获取的大量数据。类似的学科还有:环境生态学、医药学和自控技术。但是,这和我们今天讨论的大数据不是一回事。今天的大数据是基于互联网的及时动态数据,不是历史的或严格控制环境下产生的东西。

总之,今天我们谈论的大数据是完整综合的、开放公共的、动态及时的。这样的大数据是我们过去从未有机会获取利用过的全新挑战,也是我们未来应该努力去争取利用的全新战略机会。如果有人以为过去积累的那点数据就是大数据,或者过去积累的数据处理利用能力和经验就可以在大数据时代自然领先,那不是无知就是狂妄。

七、大数据的价值

大数据最核心的价值在于对海量数据进行存储和分析。与现有的其他技术相比较,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

大数据的价值并不在“大”,而在于“有用”。价值含量、挖掘成本,比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

1、大数据的主要价值

归纳起来,对企业而言,大数据的主要价值体现在以下几个方面:

⑴、精准营销

对为大量消费者提供产品或服务的企业,可以利用大数据进行精准营销;

⑵、服务转型

对做小而美模式的中长尾企业,可以利用大数据做服务转型;

⑶、传统企业转型

在面临互联网压力之下必须转型的传统企业,需要与时俱进充分利用大数据的价值。

2、大数据及其分析对企业的有利情况

不过,大数据在经济发展中的巨大意义,并不代表其能够取代一切对于社会问题的理性思考;科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益积累,以致于对问题之说明与解决,丧失了其对特殊经济意义的了解。”这确实是需要警惕的。

在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析,可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:

⑴、为企业节省支出

及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。

⑵、为快递车辆规划实时交通路线

为成千上万的快递车辆规划实时交通路线,躲避拥堵。

⑶、以利润最大化为目标来定价和清理库存

分析所有SKU,以利润最大化为目标来定价和清理库存。

SKU是英文Stock Keeping Unit的缩写, 意思是最小存货单位(库存量单位)。例如,食品公司同品牌同包装同重量的食品,若一种是苹果口味,一种是西瓜口味,则这是两个不同SKU的产品。如果一家公司的同一种产品有两个品牌,那么这两个不同品牌的同一种产品的SKU号码也是不同的。也就是说,同一家公司生产的一类产品的品牌、包装形式、形状、重量(数量)、口味(配方)、颜色、产地、等级等参数,只要有一个参数变化,都会产生新的SKU。

⑷、为客户推送感兴趣的优惠信息

根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。

⑸、快速识别出金牌客户

从大量客户中快速识别出金牌客户。

⑹、规避欺诈行为

使用点击流分析和数据挖掘来规避欺诈行为。

八、大数据时代

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,大数据才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番;而且目前世界上

90%以上的数据是最近几年才产生的。此外,数据又并不是单纯是指人们在互联网上发布的信息。全世界的工业设备、汽车、电表上有着无数的数码传感器,它们随时都在测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,从而也产生了海量的数据信息。

2013年,阿里巴巴集团董事局主席马云曾经说,在大家还没有搞清楚PC (个人用计算机)时代的时候,移动互联网来了;在还没有搞清楚移动互联网时代的时候,大数据时代来了。

现代社会是一个高速发展的社会。科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便。大数据就是这个高科技时代的产物。阿里巴巴创办人马云在一次演讲中指出,未来的时代将不是IT(互联网技术)时代,而是DT(Data Technology,数据技术)时代。这表明了大数据具有划时代的意义。

借着大数据时代的热潮,微软公司生产了一款数据驱动软件,主要是为工程建设节约资源、提高效率。在这个过程中,可以为世界节约40%的能源。抛开这个软件的前景不说,从微软团队致力于研究开始,可以看出他们的目标不仅是为了节约能源,而且更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。微软史密斯曾经这样说过:“给我提供一些数据,我就能够做一些改变。如果给我提供所有数据,那么我就能够拯救世界。”而且,智能建筑正是他的团队专注的事情。

从海量数据中“提纯”出有用的信息,这对于网络架构和数据处理能力而言也是一个巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后,大数据终于迎来了属于它的时代。

2012年,美国奥巴马政府宣布投资2亿美元,拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至还将大数据定义为“未来的新石油”。

大数据时代已经来临。它将在众多领域掀起变革的巨浪。但是,人们应该冷静地看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式和商业模式的研究,将是大数据产业健康发展的关键。大数据产业未来发展前景十分广阔。

2019年9月10日编写于重庆

2020年7月18日修改于重庆

相关主题
相关文档
最新文档