概括数据的基本特征

合集下载

什么是大数据,大数据的的基本特征是什么

什么是大数据,大数据的的基本特征是什么

什么是大数据,大数据的的基本特征是什么大数据是指由传统的数据管理和处理工具无法很好处理的数据集合。

它通常被描述为具有三个“V”特征,即大容量(Volume)、高速度(Velocity)和多样化(Variety)。

下面将详细介绍大数据的基本特征。

大数据的第一个基本特征是大容量(Volume)。

大数据集的容量通常是以十亿、万亿甚至更多的数据量级来衡量的。

传统的数据库系统无法有效地存储和处理如此庞大的数据集,因此需要借助分布式存储和并行处理的技术来应对大数据的容量挑战。

大数据的第二个基本特征是高速度(Velocity)。

随着科技的发展和互联网的普及,数据的产生速度越来越快。

大数据集不仅包括静态的历史数据,还包括实时生成的数据,如传感器数据、社交媒体数据等。

为了能够及时地对这些快速生成的数据做出响应,大数据处理系统需要具备高速的处理能力。

大数据的第三个基本特征是多样化(Variety)。

传统数据处理主要针对结构化数据,如关系型数据库中的表格数据。

然而,现今产生的数据种类越来越多样化,包括文本、图像、音频、视频、地理位置数据等非结构化数据。

这些非结构化数据的特点是信息量大,格式各异,传统的数据处理方法很难有效提取其中的有用信息。

因此,大数据处理系统需要具备处理多种数据类型的能力,包括对非结构化数据的处理和分析。

除了这三个基本特征,大数据还具有其他一些重要特征。

首先是价值密度(Value)。

大数据中包含着巨大的商业价值,通过对大数据的分析和挖掘,可以帮助企业做出更准确的业务决策,提高运营效率,增加盈利。

其次是真实性(Veracity)。

大数据来源广泛,包括社交媒体数据、传感器数据等,其真实性和准确性需要得到保证,才能确保分析结果的可靠性和可信度。

再次是可变性(Variability)。

大数据的特点是数据量大、速度快且多样化,这些特点导致大数据集的性质可能会发生变化。

因此,大数据处理系统需要具备自适应的能力,能够应对数据变化带来的挑战。

简述大数据的基本特征

简述大数据的基本特征

简述大数据的基本特征大数据,指的是数据量巨大、类型多样、传统数据处理方法无法有效处理的数据集合。

随着信息技术的不断发展和应用,大数据已经成为各行各业的重要资源和基础设施,对社会经济的发展和创新能力有着重要的影响。

下面将从规模、速度、种类和价值四个方面简要描述大数据的基本特征。

1. 规模:大数据的最基本特征之一就是其庞大的数据规模。

传统的数据处理方式难以应对海量的数据,而大数据则需要借助分布式计算和存储等技术才能处理和分析。

随着互联网的快速发展和智能设备的普及,大量的数据源源不断地产生,如社交媒体的用户生成内容、传感器数据、销售记录等,这些庞大的数据规模需要大数据技术来进行高效地存储、管理和分析。

2. 速度:大数据的第二个基本特征是其快速的产生和流动速度。

与传统数据相比,大数据不仅仅是数据量的增加,更重要的是数据产生和流动的速度更快。

例如,金融交易、物联网传感器数据等需要实时处理和分析,以便及时响应和决策。

快速产生和流动的大数据要求数据处理系统具备高并发和实时处理能力,以满足快速应用的需求。

3. 种类:大数据的第三个基本特征是其多样的数据种类。

传统的数据存储和处理方式主要针对结构化数据,而大数据则更广泛地包括结构化数据、半结构化数据和非结构化数据。

结构化数据是指可以通过固定格式和模式进行组织和访问的数据,如关系型数据库中的表格数据;半结构化数据是指具有一定结构但不符合传统关系模型的数据,如XML、JSON等;非结构化数据指没有明确结构的数据,如文档、图片、视频等。

不同种类的数据需要使用不同的技术和方法进行存储和分析。

4. 价值:大数据的最终目标是提取其中的价值信息。

大数据分析可以帮助发现数据中的规律、趋势和关联,为决策和创新提供支持。

通过对大数据的分析,可以发现市场需求、用户需求、产品改进等信息,帮助企业进行精细化运营和市场预测。

同时,大数据也可以促进科学研究与发现,如天文学研究、基因组学研究等。

数据及其特征

数据及其特征

名称
优点
缺点
模拟 信号
信息密度更高,对自然界物理量的 真实值进行尽可能逼真的描述
当达到相同的效果,模拟信号处 理比数字信号处理更简单。
抗干扰能力弱 保密性差
数字 信号
数字信号在传输过程中具有更高 的抗干扰能力,更远的传输距离, 且失真幅度小
加强了通信的保密性
便于存储、处理和交换等……
算法复杂
进行远距离传送时哪种信号比较好?
1111111111111111
1100000110000011
1100000110000011
1100000110000011
1100000110000011

1111111111111111
形 码
1111111111111111 0000000110000000 0000000110000000
在大数据时代,数据不仅是信息的载体,也是人们提取信息、做出决策的重 要依据,成为人们认识和理解现实世界客观事物的重要资源
点阵汉字
汉字
的字 0000000110000000
形点 0000000110000000

0000000110000000
表示 0000000110000000
1111111111111111

客观世界
符号化
计算化
计算0和1 化
自动化
客观 世界
符号 化
计算 化
计算0 和1化
自动 化
组合、 抽象、
构造
构造 化
集成 化
数据
数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象。
在计算机科学中,数据是对所有输入计算机并被计算机识别、存储和处理的 符号的总称,是联系现实世界和计算机世界的途径

大数据的定义及基本特征

大数据的定义及基本特征

大数据的定义及基本特征随着科技的不断进步和互联网的快速发展,我们进入了一个数字化时代。

在这个时代,数据成为了一种宝贵的资源,而大数据则成为了数据技术中的重要概念。

大数据是指包括传统和非传统数据形式在内的庞大数据集合。

这些数据集合通常非常庞大、高度复杂,无法使用传统的数据处理工具和技术进行处理。

大数据的基本特征主要包括三个方面——"3V":大量(Volume)、多样(Variety)和高速(Velocity)。

首先,大数据具有大量的特点。

这意味着数据量级非常庞大,通常需要海量的存储空间来存放这些数据。

例如,社交媒体平台每天产生大量的用户数据,互联网上的交易和日志数据量也非常庞大。

与传统的数据处理方法相比,大数据需要更大的存储和处理能力。

其次,大数据的多样性也是其一个重要的特征。

大数据不仅包含结构化数据,如关系数据库中的表格数据,还包括非结构化数据,如文本、图像、音频和视频等形式的数据。

此外,大数据还包含来自不同来源、不同格式和不同频率的数据。

这使得大数据具有多样性,需要使用不同的工具和技术来处理和分析这些不同类型的数据。

最后,大数据具有高速的特点。

在传统的数据处理方法中,数据的处理速度相对较慢,往往需要花费很长的时间来处理大量的数据。

然而,随着科技的不断进步和互联网的发展,数据的生成速度越来越快。

例如,在金融领域,交易数据以每秒百万次的速度产生。

因此,大数据需要在很短的时间内对数据进行处理和分析,以实时地获取有价值的信息。

除了以上的"3V"特征外,大数据还具有一些其他的特征。

首先,大数据具有可变性。

数据集合中的数据可以随着时间的推移而变化,因此需要不断地对数据进行更新和处理。

其次,大数据具有不确定性。

由于大数据的多样性和高速性,数据之间的关系和模式可能不容易被发现。

因此,如何从大数据中提取有价值的信息是一个具有挑战性的问题。

总之,大数据是指庞大、复杂且多样的数据集合。

什么是大数据大数据的的基本特征是什么

什么是大数据大数据的的基本特征是什么

什么是大数据大数据的的基本特征是什么在信息技术飞速发展的时代背景下,大数据成为了一个热门话题。

大数据指的是规模巨大且复杂的数据集合,这些数据无法通过传统的数据管理工具进行捕捉、存储、管理和分析。

大数据具有一定的特征,下面将逐一介绍。

1. 量大:大数据所涉及的数据量非常庞大,从几个TB到几百甚至几千TB不等。

这些数据通常来自于各种来源,比如传感器、社交媒体、设备和传统企业系统等,多种数据源数量庞大且不断增长。

2. 速度快:大数据以非常快的速度产生,并且需要在实时或准实时的环境中进行处理。

例如,社交媒体和在线交易等数据源需要实时监测和分析。

3. 多样性:大数据包含多种类型的数据,如结构化数据、半结构化数据和非结构化数据。

结构化数据是指可按照特定格式组织和存储的数据,例如关系型数据库存储的数据;半结构化数据是指部分具有结构化特征但不符合传统数据库表结构的数据,如XML文档;非结构化数据是指无法在传统数据库中进行直接处理的数据,如文本、图像和视频等。

4.真实性:大数据具有高度的真实性,可以反映实际现象和行为。

与传统统计样本相比,大数据的真实性更高,因为其所涵盖的范围更广泛,包括了更多不同的用户、地理位置、时间段等。

5. 价值密度低:大数据中包含了大量无关紧要的信息,与所需信息相比,大多数数据是冗余的。

大数据分析的关键是从海量数据中提取有价值的信息和洞察,以支持决策和创新。

6. 可信度不足:大数据具有风险和误差的可能性。

数据质量问题(如错误、噪声、丢失等)可能会导致分析结果的不准确性。

因此,在大数据分析和应用中,确保数据的可靠性和一致性非常重要。

7. 多层次:大数据可以从多个层次进行分析。

从一个个案例分析到整体趋势分析,还可以进行全球、区域和个体之间的比较,从而探索不同层次上的数据隐藏的规律和洞见。

总结起来,大数据具有量大、速度快、多样性、真实性、价值密度低、可信度不足和多层次等基本特征。

这些特征对于理解和应用大数据具有重要意义,同时也给大数据的处理和分析带来了挑战。

大数据的四个基本特征

大数据的四个基本特征

大数据的四个基本特征随着信息技术的快速发展,大数据已经成为当代社会不可忽视的重要资源。

大数据是指数据量巨大、种类繁多、数据采集速度快、数据价值密度低的数据集合。

大数据具有四个基本特征,即数据量大、数据多样性、数据时效性和数据价值密度低。

本文将详细介绍这四个基本特征,并探讨它们在大数据应用中的重要性。

第一个基本特征是数据量大。

大数据的数据量通常以GB、TB甚至更大的单位来衡量。

相比传统数据集,大数据的数据量指数级增长。

数据量的增加使得传统的数据处理和分析方法无法适应。

大数据需要通过高性能的计算设备和先进的数据存储技术,才能高效地处理和分析。

数据量大的特征使得大数据能够覆盖更广泛的领域,如金融、医疗、交通等,为决策者提供更准确、全面的信息支持。

第二个基本特征是数据多样性。

大数据包含了多种类型的数据,如结构化数据、半结构化数据和非结构化数据。

结构化数据是以表格形式组织的数据,如关系型数据库中的数据;半结构化数据是具有一定结构但不符合传统关系型数据库模式的数据,如XML文件;非结构化数据则是没有明确结构的数据,如文本、图像、音频等。

数据多样性使得大数据具备了更丰富的信息,提供了更全面的视角,能够揭示更深层次的数据关联和趋势。

然而,数据多样性也给数据的采集、存储和分析带来了更大的难度。

第三个基本特征是数据时效性。

在大数据时代,数据的产生速度呈现爆发性增长,很多数据是实时产生的。

数据时效性要求在短时间内对大量数据进行采集、处理和分析。

这对大数据领域的技术和系统提出了更高的要求,需要具备高并发、高效能的数据处理能力,以及实时数据流处理技术。

数据时效性的特征使得大数据分析能够更好地适应快速变化的环境,及时发现和把握商机,帮助企业做出更准确的决策。

第四个基本特征是数据价值密度低。

大数据中的很多数据是低价值的,比如无意义的日志数据、传感器数据等。

数据价值密度低意味着数据中包含了许多冗余、无效的信息,需要通过数据处理和分析来寻找其中的有用信息。

数据收集与分析方法

数据收集与分析方法

数据收集与分析方法数据在现代社会中扮演着至关重要的角色。

准确、全面地收集和分析数据可以为决策提供有力的支持和依据。

本文将介绍几种常见的数据收集与分析方法,旨在帮助读者更好地理解和运用数据。

一、问卷调查法问卷调查是一种常见的数据收集方法,通过向受访者提供结构化的问题,收集他们的意见、观点和反馈。

问卷调查可以采用纸质形式或在线形式,具有成本低、收集范围广的优点。

在设计问卷时,需要注意问题的清晰性、逻辑性以及回答选项的多样性,以确保数据的准确性和可靠性。

二、观察法观察法是一种直接观察和记录现象的数据收集方法。

通过观察对象的行为、表现或情况,可以获得真实、客观的数据。

观察法可以通过人工观察或利用传感器等设备进行自动化观察。

在使用观察法时,需要注意选择合适的观察环境和观察对象,并进行客观、全面的记录和分析。

三、实验法实验法是一种控制条件、观察现象并得出结论的数据收集方法。

在实验中,研究者可以控制自变量并观察因变量的变化。

实验法可以提供因果关系的证据,并帮助了解影响结果的各种因素。

在设计实验时,需要明确实验目的、确定实验因素和控制变量,并采用适当的数据分析方法来处理实验结果。

四、访谈法访谈法是一种直接与受访者进行交流并获取信息的数据收集方法。

通过访谈,研究者可以深入了解受访者的观点、经验和态度。

访谈可以采用个别访谈或焦点小组讨论的形式。

在进行访谈时,需要注意建立良好的沟通氛围,遵循开放性和探索性的原则,以获取真实、详细的数据。

五、数据分析方法数据分析是对收集到的数据进行整理、统计和解释的过程。

常用的数据分析方法包括描述统计分析、推断统计分析、回归分析、聚类分析等。

描述统计分析可以通过计算平均值、标准差、频率等指标来概括数据的基本特征;推断统计分析可以通过抽样和假设检验来对总体进行推断;回归分析可以探究变量间的关系和预测因变量的变化;聚类分析可以将观测对象划分为不同的群组。

结论数据收集与分析是科学研究、商业决策等领域中不可或缺的环节。

体现数据基本特征的例子

体现数据基本特征的例子

体现数据基本特征的例子
一、数据及其特征
(一)数据的定义
数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象。

(二)数据的基本特征
1.二进制:在计算机中,数据以二进制的形式存储和加工。

2.语义性:语义是将数据符号解释为客观世界的事物。

3.分散性:数据是分散的记录,分别记录不同客观事物的运行状态。

4.多样性与感知性:数据记录的形式是多样的、可看的、可听的、可感知的,如图形、图像、视频、音频、文本等。

二、数据编码
计算机中的信息是用二进制表示的。

因为:物理上容易实现、可靠性强、运算简单、通用性强。

在计算机中只能识别二进制数码信息,因此,一切字母、数字、符号、图像、声音等信息都必须用二进制特定编码来表示,信息才能传送、存储和处理。

例子:有线电话、无线广播电视等。

在计算机中,数字信号的大小常用有限位的二进制数表示。

优点:
(1)当达到相同的效果,模拟信号处理比数字信号处理更简单。

(2)模拟信号的信息密度更高。

由于不存在量化误差,它可以对自然界物理量的真实值进行尽可能逼近的描述。

(1)加强了通信的保密性。

(2)提高了抗干扰能力。

(3)传输差错可以控制,从而改善了传输质量。

(4)便于使用现代数字信号处理技术来对数字信息进行处理。

(5)可构建综合数字通信网,传递各种消息,使通信系统功能增强。

缺点:
(1)保密性差。

(2)抗干扰能力弱。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概括数据的基本特征篇一从某种程度上说,大数据是数据分析的前沿技术。

简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术,明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。

在莱尼的理论基础上,IBM提出大数据的4V特征?得到了业界的广泛认可。

第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快;第四,真实性(Veracity),即追求高质量的数据。

虽然不同学者、不同研究机构对大数据的定义不尽相同,但都广泛提及了这4个基本特征。

1、大容量据马海祥了解,天文学和基因学是最早产生大数据变革的领域,2000年,斯隆数字巡天项目启动时,位于新墨西哥州的望远镜,在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;在智利的大型视场全景巡天望远镜一旦于2016年投入使用,其在5天之内搜集到的信息量将相当于前者10年的信息档案。

2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。

伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。

移动互联网的核心网络节点是人,不再是网页,人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等。

大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。

我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。

2011年,马丁·希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章,对1986——2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。

其研究范围大约涵盖了60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。

据他们估算:2007年,人类大约存储了超过300EB的数据;1986——2007年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。

这样大的数据量意味着什么?据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。

如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。

在公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品,可以代表当时世界上其所能搜集到的知识量。

但当数字数据洪流席卷世界之后,每个人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

2、多样性随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。

例如,在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。

4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭等等,这些数据在体量和速度上都达到了大数据的规模。

发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、能前人所不能的机会。

大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。

例如,为了使计算机能够理解人的意图,人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步工作,完成某种特定的任务。

在以往,人们只能通过编程这种规范化计算机语言发出指令,随着自然语言处理技术的发展,人们可以用计算机处理自然语言,实现人与计算机之间基于文本和语音的有效通信,为此,还出现了专门提供结构化语言解决方案的组织—语言数据公司。

自然语言无疑是一个新的数据来源,而且也是一种更复杂、更多样的数据,它包含诸如省略、指代、更正、重复、强调、倒序等大量的语言现象,还包括噪声、含混不清、口头语和音变等语音现象。

苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。

用户可以通过语音、文字输入等方式与Siri对话交流,并调用手机自带的各项应用,读短信、询问天气、设置闹钟、安排日程,乃至搜寻餐厅、电影院等生活信息,收看相关评论,甚至直接订位、订票,Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。

为了让Siri足够聪明,苹果公司引入了谷歌、维基百科等外部数据源,在语音识别和语音合成方面,未来版本的Siri或许可以让我们听到中国各地的方言,比如四川话、湖南话和河南话。

多样化的数据来源正是大数据的威力所在,例如交通状况与其他领域的数据都存在较强的关联性。

据马海祥博客收集的数据研究发现,可以从供水系统数据中发现早晨洗澡的高峰时段,加上一个偏移量(通常是40-45分钟)就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量估算出晚上的堵车时段。

3、快速度在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。

例如,IBM有一则广告,讲的是“1秒,能做什么”?1秒,能检测出台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。

在商业领域,“快”也早已贯穿企业运营、管理和决策智能化的每一个环节,形形色色描述“快”的新兴词汇出现在商业数据语境里,例如实时、快如闪电、光速、念动的瞬间、价值送达时间。

英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术和传统的数据挖掘技术最大的区别。

大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有两个层面。

一是数据产生得快。

有的数据是爆发式产生,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生,但是由于用户众多,短时间内产生的数据量依然非常庞大,例如,点击流、日志、射频识别数据、GPS(全球定位系统)位置信息。

二是数据处理得快。

正如水处理系统可以从水库调出水进行处理,也可以处理直接对涌进来的新水流。

大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。

为什么要“快”?第一,时间就是金钱。

如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。

面临同样大的数据“矿山”,“挖矿”效率是竞争优势。

第二,像其他商品一样,数据的价值会折旧,等量数据在不同时间点?价值不等。

NewSQL(新的可扩展性/高性能数据库)的先行者VoltDB(内存数据库)发明了一个概念叫作“数据连续统一体”:数据存在于一个连续的时间轴上,每个数据项都有它的年龄,不同年龄的数据有不同的价值取向,新产生的数据更具有个体价值,产生时间较为久远的数据集合起来更能发挥价值。

第三,数据跟新闻一样具有时效性。

很多传感器的数据产生几秒之后就失去意义了。

美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性,但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。

越来越多的数据挖掘趋于前端化,即提前感知预测并直接提供服务对象所需要的个性化服务,例如,对绝大多数商品来说,找到顾客“触点”的最佳时机并非在结账以后,而是在顾客还提着篮子逛街时。

电子商务网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品,这就是“快”的价值。

4、真实性在以上3项特征的基础上,我归纳总结了大数据的第四个特征——真实性。

数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。

追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,人的感情和诚实性、天气形势、经济因素以及未来。

在处理这些类型的数据时,数据清理无法修正这种不确定性,然而,尽管存在不确定性,数据仍然包含宝贵的信息。

我们必须承认、接受大数据的不确定性,并确定如何充分利用这一点,例如,采取数据融合,即通过结合多个可靠性较低的来源创建更准确、更有用的数据点,或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。

业界还有人把大数据的基本特征从4V扩展到了11V,包括价值密度低(Value)、可视化(Visualization)、有效性(Validity)等。

例如,价值密度低是指随着物联网的广泛应用,信息感知无处不在,信息海量,但在连续不间断的视频监控过程中,可能有用的数据仅一两秒。

如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

国际数据公司报告里有一句话,概括出了大数据基本特征之间的关系:大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值。

除了上述主流的定义,还有人使用3S或者3I描述大数据的特征。

3S指的是:大小(Size)、速度(Speed)和结构(Structure)。

3I指的是:(1)、定义不明确的(Ill-de.ned):多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准。

相关文档
最新文档