大数据的概念、特征及其应用
信息管理与信息系统毕业设计题目关于大数据

信息管理与信息系统毕业设计题目关于大数据【实用版】目录一、引言二、大数据的概念及其在信息管理与信息系统中的应用1.大数据的定义2.大数据的特征3.信息管理与信息系统的发展与挑战三、信息管理与信息系统毕业设计题目关于大数据的选取1.大数据在信息管理与信息系统中的重要性2.毕业设计题目的选取标准四、大数据在信息管理与信息系统毕业设计中的应用1.大数据处理技术在毕业设计中的应用2.大数据分析技术在毕业设计中的应用3.大数据可视化技术在毕业设计中的应用五、信息管理与信息系统毕业设计题目关于大数据的实践案例1.案例一:大数据处理技术在图书馆信息管理系统中的应用2.案例二:大数据分析技术在企业员工管理系统中的应用3.案例三:大数据可视化技术在城市交通监控系统中的应用六、结论正文一、引言随着互联网的快速发展,数据在全球范围内呈现出爆炸式增长,大数据时代已经来临。
大数据是指数据量超出了传统数据库处理能力范围的数据集合,它具有海量、高增长率和多样性等特征。
在大数据背景下,信息管理与信息系统专业面临着新的发展机遇与挑战。
因此,在毕业设计中选择与大数据相关的题目具有重要意义。
二、大数据的概念及其在信息管理与信息系统中的应用1.大数据的定义大数据是指数据量超出了传统数据库处理能力范围的数据集合。
它包括了结构化数据、半结构化数据和非结构化数据等多种数据类型。
2.大数据的特征大数据具有以下几个特征:海量、高增长率、多样性、价值密度低和处理速度要求高。
3.信息管理与信息系统的发展与挑战随着大数据时代的到来,信息管理与信息系统面临着诸多挑战,如数据处理、数据分析、数据存储和数据安全等。
同时,大数据也为信息管理与信息系统带来了很多发展机遇,如数据挖掘、数据可视化和智能决策等。
三、信息管理与信息系统毕业设计题目关于大数据的选取1.大数据在信息管理与信息系统中的重要性大数据在信息管理与信息系统中具有重要意义,它能够帮助企业发现潜在的商业价值,提高决策效率和精确度,提高业务流程效率,降低运营成本等。
大大数据概念、技术、特点、应用与案例

大数据目录一、大数据概念 (1)二、大数据分析 (2)三、大数据技术 (3)四、大数据特点 (4)五、大数据处理 (4)六、大数据应用与案例分析 (6)一、大数据概念"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。
最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。
它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。
" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。
对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。
大数据及其在各领域的应用

大数据及其在各领域的应用随着互联网时代的到来,大数据已经成为我们生活中不可忽视的一部分。
大数据指的是海量、高维度、多样化的数据集合,其挖掘和分析对于各个领域具有重要意义。
本文将介绍大数据的概念以及其在各领域的应用。
一、大数据的概念大数据是指以超出常规处理能力的范围为特征,具有采集、存储、分析和应用等方面的难度和复杂性的一种数据集合。
它的特点主要包括四个方面:大量性、高速性、多样性和全面性。
大数据的应用可以帮助我们从庞大的数据中挖掘出有价值的信息,为决策提供科学依据。
二、大数据在商业领域的应用在商业领域,大数据的应用已经成为提高竞争力的重要手段。
通过对消费者行为和偏好的分析,企业可以更好地了解市场需求,制定营销策略和产品定位。
同时,大数据分析还可以帮助企业预测销售趋势,优化供应链管理,提升运营效率。
例如,电商平台可以通过大数据分析,为用户推荐个性化的商品,提升用户满意度和转化率。
三、大数据在医疗领域的应用在医疗领域,大数据的应用已经开始改变传统医疗模式。
通过对患者电子病历、基因数据等信息的分析,可以实现精准医疗,即根据患者的个体特征和病情制定个性化的治疗方案。
此外,大数据还可以帮助医疗机构进行疾病预测和监测,提高公共卫生水平。
例如,通过分析流感病毒的传播路径和趋势,可以及时采取相应的预防措施,减少疫情的扩散。
四、大数据在城市管理中的应用大数据在城市管理中的应用,可以提高城市的智能化程度和便利性。
通过对交通流量、气象数据等信息的分析,可以优化城市交通规划和道路疏散策略,减少交通拥堵和事故发生。
同时,大数据分析还可以为城市提供智慧公共服务,如智能停车、智能供水等,提升居民生活质量。
例如,通过对居民用水数据的分析,可以及时发现漏水问题,节约水资源。
五、大数据在金融领域的应用在金融领域,大数据的应用可以提供更精准的风险评估和投资建议。
通过对客户交易记录、信用评分等信息的分析,可以为金融机构识别潜在的风险客户,并采取适当的防范措施。
大数据的定义特征及其应用分析

对 社会 产生 的影 响和 在通 信行 业 中的应 用 。 关 键 词 大数 据 ; 云计 算 ; 通信运 营商 中图 分类号 : T P 3 文献 标识 码 : A 文章编 号 : 1 6 7 卜7 5 9 7( 2 0 1 3 )1 卜O 1 2 0 — 0 1
1 大数 据产 生背 景
随着 网络信 息 化时 代 的 臼益 普遍 , 互 联 网 、物 联 网 、云 计
合 在一起 相得 益彰 , 互相 都能 发挥 最 大的优 势 。
算 的飞 速发 展 以及 各种 类 型 的 移 动智 能终 端 应 用普 及 , 互 联 网 的边 界 和应 用 范 同 得 到 了 极 大 地 拓 展 , 互联 网 ( 搜 索 、社 交 、 电商 ) 、移 动互 联 ( 微 博 、微信 、翼 聊 ) 、物 联 网 ( 传 感 器 、智 慧地球 ) 、电信 行 业 ( 通 话 、上 网 、短信 ) 等 都 在 疯 狂 地 产 生 着数据 , 促 使 当前 人类 社 会 的 数 据增 长 比 以往 任何 一 个 时期 都 要 快 。据 有关 公 司统计 , 在2 0 0 6年 , 个 人用 户 数据 量 刚刚迈 进 T B时 代 , 全球 一共新 产生 了约 1 8 0 E B的数据 , 到了 2 0 1 0 年 年底 , 全球 数据 量 已经达 到 了 1 . 1 4 Z B 。预计 到 2 0 2 0年 , 全球 电子设 备 存 储 的数 据量 将会达 到 3 5 Z B , 这个 数据量 是 2 0 0 6年全 球电子 数 据存储量 的 2 O多万倍 , 这其 中企业数据 正在 以 5 5 %的速度逐 年增 长 。 随着 数据 量 越 来越 大 、数据 变 化速 度 越 来越 快 、数 据 类 型越 来 越 复杂 、数 据 特性 的逐 步 演变 和发 展 , 基 于海 量信 息 数 据 处理 需求 等诸 多因 素 , 诞生 了一个 全新 的概念 —— 大数 据 。
数据产品经理面试题目(3篇)

第1篇一、基础知识与理解1. 请简述大数据的概念及其与传统数据处理的区别。
解析:大数据指的是规模巨大、类型多样的数据集合,其特征为“4V”:Volume (大量)、Velocity(高速)、Variety(多样)和Value(价值)。
与传统数据处理相比,大数据处理需要更加高效的数据采集、存储、分析和挖掘技术。
2. 请解释什么是数据挖掘,以及它在数据产品中的应用。
解析:数据挖掘是指从大量数据中提取出有价值信息的过程,它可以帮助数据产品经理发现数据中的规律和趋势,为产品决策提供支持。
在数据产品中,数据挖掘可用于用户行为分析、市场趋势预测、个性化推荐等。
3. 请简述数据仓库、数据湖和数据湖仓的区别。
解析:- 数据仓库:针对特定业务需求,对历史数据进行存储、整合和管理的系统,主要用于数据分析和决策支持。
- 数据湖:以原始数据形式存储大量结构化、半结构化和非结构化数据,便于后续的数据分析和挖掘。
- 数据湖仓:结合数据仓库和数据湖的特点,同时具备数据仓库的查询性能和数据湖的存储能力。
4. 请解释什么是数据治理,以及它在数据产品中的重要性。
解析:数据治理是指对数据全生命周期进行规划、管理、控制和监督的过程。
在数据产品中,数据治理有助于保证数据质量、提升数据价值,并确保数据安全合规。
二、业务分析与决策1. 请描述一次您在数据产品中运用数据分析解决问题的案例,并说明您的分析思路。
解析:此题旨在考察应聘者运用数据分析解决问题的能力。
应聘者需结合实际案例,阐述分析思路、数据来源、分析方法及最终成果。
2. 请简述如何利用数据分析进行用户画像,并说明其在数据产品中的应用。
解析:用户画像是指对用户进行全面、多维度的描述,以便更好地了解用户需求和行为。
在数据产品中,用户画像可用于精准营销、个性化推荐、产品优化等。
3. 请解释什么是A/B测试,以及它在数据产品中的应用。
解析:A/B测试是一种通过比较两个或多个版本的产品,以确定哪个版本更能满足用户需求的方法。
大数据文献综述

大数据文献综述随着信息技术的飞速发展,数据的产生和积累速度呈指数级增长,大数据已经成为当今社会各个领域关注的焦点。
大数据不仅改变了我们获取、处理和分析信息的方式,也为科学研究、商业决策、社会治理等带来了前所未有的机遇和挑战。
本文将对大数据相关的文献进行综合梳理和分析,旨在全面了解大数据的概念、特点、技术架构以及其在不同领域的应用和影响。
一、大数据的概念与特点大数据的概念最早由知名咨询公司麦肯锡提出,其定义为:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
海量的数据规模是大数据最显著的特点之一。
在当今数字化时代,数据的生成来源极为广泛,包括互联网、物联网、社交媒体、金融交易、医疗记录等。
这些数据的总量已经达到了 PB 级甚至 EB 级,远远超出了传统数据处理技术的处理能力。
快速的数据流转意味着数据的产生和更新速度非常快。
在一些实时应用场景中,如金融交易、物流监控等,数据需要在极短的时间内被处理和分析,以做出及时的决策。
多样的数据类型也是大数据的重要特点。
除了传统的结构化数据(如关系型数据库中的表格数据),大数据还包含大量的半结构化数据(如 XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频、视频等)。
价值密度低则是指在海量的数据中,真正有价值的信息往往只占很小的比例。
因此,如何从海量的数据中挖掘出有价值的信息成为了大数据处理的关键挑战之一。
二、大数据的技术架构大数据的处理需要一套完整的技术架构来支持,包括数据采集、数据存储、数据处理和数据分析等环节。
数据采集是大数据处理的第一步,其目的是从各种数据源中获取数据。
常见的数据采集技术包括网络爬虫、传感器数据采集、系统日志采集等。
数据存储是大数据处理的重要环节,由于大数据的规模巨大,传统的关系型数据库已经无法满足需求。
因此,分布式文件系统(如 HDFS)和分布式数据库(如 HBase、Cassandra 等)成为了大数据存储的主流选择。
大数据分析及其对经济学的应用研究

大数据分析及其对经济学的应用研究大数据分析是一项快速发展的技术,它的应用领域不止于商业领域,在经济学领域,大数据分析也有着广泛的应用。
在这篇文章中,我们将从大数据概念、数据采集、数据存储和数据分析等角度,探讨大数据分析如何对经济学的应用产生影响。
一、大数据概念大数据是指具有高速、多样性和大容量特征的数据集合。
具体来说,大数据的特性包括四个方面,即数据量大、数据来源多、数据种类广、数据速度快。
这些特点使得大数据分析较传统统计分析方法更加高效和精准。
二、数据采集数据采集是指收集和获取数据的过程。
在传统的经济研究中,数据主要来自于调查、实验或样本观察等传统方法。
然而,在大数据时代,数据的获得已经变得更加普遍和容易。
例如,社交媒体、移动设备、物联网、云计算等技术的普及,使得大量的数据被不断采集和存储下来。
同时,也涌现出了许多第三方机构,他们致力于为企业和个人提供各种类型的数据。
这些数据的开放共享,为研究者和决策者提供了更多的数据选择和更准确的数据基础。
三、数据存储数据存储是指数据的保存和管理过程,它是大数据分析过程中的关键环节。
随着数据产生速度的提升,如何高效地管理和存储数据成为数据分析的首要问题。
在经济学中,数据存储可分为单一数据源和多数据源存储。
单一数据源主要指对于某一特定的经济状况或者某eenomicsystems业关键指标的统一管理。
多数据源存储,则是将各种多数据类型存储在一起。
多数据源存储的优势在于能够更全面的反映经济状况,更好的综合数据分析,从而提供更精准的数据决策支持。
四、数据分析数据分析是大数据应用最为核心的方法之一。
数据分析可以帮助经济学家观察、描述、解释、预测和评价各种经济现象和政策的效果。
大数据分析主要有两个方向,一是数据挖掘,二是信息化管理。
其中数据挖掘更侧重于从海量的数据中挖掘有价值的信息,用于经济预测、市场营销、资产评估等;而信息化管理则主要用于企业和政府信息化管理,包括人力资源管理、企业竞争力分析、政府治理等方面的应用。
大数据的四大特点与三大特征你知道吗

大数据的四大特点与三大特征你知道吗随着信息技术的不断发展和应用,大数据正逐渐成为我们生活中无法忽视的一部分。
大数据的应用已经深入到各个行业和领域,并对我们的生产、生活、工作方式产生了深远的影响。
本文将介绍大数据的四大特点和三大特征,帮助您更好地了解大数据的概念和应用。
一、大数据的四大特点1.数据量大:大数据的一个显著特点就是数据量巨大。
传统的数据处理方式往往无法胜任这样大规模的数据处理任务。
大数据所涉及的数据量通常以TB、PB甚至EB为单位进行计量。
这样庞大的数据量需要借助先进的计算机和存储设备来进行管理和分析。
2.数据速度快:大数据的第二个特点是数据的生成和流动速度非常快。
现代社会中,各种传感器、设备和互联网技术不断向我们传输海量的数据。
这些数据在瞬息之间就会产生,并以极高的速度传输和更新。
因此,对大数据的处理需要具备强大的实时性和高速性。
3.数据多样性:大数据并不仅仅指的是结构化的数据,还包括半结构化和非结构化的数据。
在大数据中,我们可以找到各种各样的数据类型,如文本、图像、音频、视频等。
这些数据来源广泛,格式多样,需要通过灵活的处理方法进行分析和利用。
4.数据价值高:大数据所蕴含的信息和价值是非常巨大的。
通过对庞大的数据进行深入挖掘和分析,我们可以发现隐藏在数据背后的规律和洞察力。
这些信息有助于企业做出更准确的决策,优化产品和服务,提升竞争力。
因此,挖掘大数据的价值已成为许多企业和组织关注的焦点。
二、大数据的三大特征1. 数据采集:大数据的第一个特征是数据的采集。
通过各种传感器、设备、社交媒体等渠道,我们可以不断地获取大量的数据。
这些数据可以包含用户的行为、偏好、购买记录等信息,有助于企业了解用户,优化产品和服务。
2. 数据存储:大数据的第二个特征是数据的存储。
对于大规模的数据,我们需要借助云计算和分布式存储技术来进行存储和管理。
这些技术可以将数据分散存储在多个节点上,提高数据的可靠性和可用性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
马建光等:大数据的概念、特征及其应用(2013-09-05 16:15:35)转载▼分类:学习资料标签:杂谈大数据的概念、特征及其应用马建光,姜巍(国防科技大学人文与社会科学学院,湖南长沙410074)源自:国防科技2013年4月[摘要]随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。
如何获取、聚集、分析大数据成为广泛关注的热点问题。
介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。
[关键词]大数据; 非结构化信息; 解决核心问题; 未来挑战一、引言自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。
工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。
而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。
在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。
首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。
根据国际数据公司IDC 的监测统计[1],即使在遭遇金融危机的2009 年,全球信息量也比2008 年增长了62%,达到80 万PB ( 1PB 等于10亿GB) ,到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB,) ,并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40 ZB,10年间增长20 倍以上,到2020 年,地球上人均数据预计将达5247GB。
在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。
如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。
为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。
2012 年3 月22 日,奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”[2],欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。
这是继1993 年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,美国政府认为大数据是未来信息时代的重要资源,战略地位堪比工业时代的石油,其影响除了体现在科技、经济方面,同时将也对政治、文化等方面产生深远的影响。
在商业方面,2013 年,Gartner 发布了将在未来三年对企业产生重大影响的十大战略技术中,大数据名列其中,提出大数据技术将影响企业的长期计划、规划和行动方案,同时,IBM、Intel、EMC、Walmart、Teradata、Oracle、Microsoft、Google、Facebook 等发源于美国的跨国巨头也积极提出自己的应对大数据挑战的发展策略,他们成了发展大数据处理技术的主要推动者。
在科技领域,庞大的数据正在改变着人类发现问题、解决问题的基本方式,采用最简单的统计分析算法,将大量数据不经过模型和假设直接交给高性能计算机处理,就可以发现某些传统科学方法难以得到的规律和结论。
图灵奖得主吉姆·格雷提出的数据密集型科研第四范式[3],不同于传统的实验、理论和计算三种范式,第四种范式不需要考虑因果关系,以数据为中心,分析数据的相关性,打破了千百年来从结果出发探究原因的科研模式,大规模的复杂数据使得新的科研模式成为可能。
虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基本概念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有过度炒作的嫌疑。
欧洲的一些企业甚至认为大数据就是海量数据存储,仅将大数据视作是可以获取更多信息的平台。
本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题,在此基础上,最后讨论大数据可能要面临的多种挑战。
二、国内外开展的相关工作近年来,大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的关注和研究,有一些相关的研究成果。
早在1980 年,阿尔文·托夫勒[4]等人就前瞻性地指出过大数据时代即将到来。
此后经过几十年的发展,特别是移动互联网络和云计算的出现,人们逐渐认识到大数据的重大意义,国际顶级学术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应用,2008 年Nature 出版专刊“Big Data”[5],分析了大量快速涌现数据给数据分析处理带来的巨大挑战,大数据的影响遍及互联网技术、电子商务、超级计算、环境科学、生物医药等多个领域。
2011 年Science 推出关于数据处理的专刊“Dealing with data”[6],讨论了数据洪流( Data Deluge) 所带来的挑战,提出了对大数据进行有效的分析、组织、利用可以对社会发展起到巨大推动作用。
在大数据领域,国内学者也有大量的相关工作,李国杰等人[7]阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略提出了建议。
文献[8-10]主要关注大数据分析、查询方面的理论、技术,对大数据基本概念进行了剖析,列举了大数据分析平台需要具备的几个重要特性,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。
随着大数据理念逐渐被大众了解,出现了一些阐述大数据基本概念与思想的专著,舍恩伯格等在大数据时代[11]一书中用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
近年来,大数据对经济的推动作用被广泛接受,出现了探讨大数据在商业领域的应用的文章和专著,Martin Klubeck 等人在量化: 大数据时代的企业管理[12]一书中提到,进入大数据时代,数据发挥着关键的作用,探讨了如何从空前膨胀的海量数据中挖掘出有用的指标和信息。
朱志军等人所著的《转型时代丛书: 大数据·大价值、大机遇、大变革》[13]中介绍了大数据产生的背景、特征和发展趋势,从实证的角度探讨了它对社会和商业智能的影响,并认为大数据正影响着商业模式的转变,并将带来新的商业机会。
三、大数据的概念与特点大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。
在维基百科中关于大数据的定义为[14]: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。
笔者认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。
IDC 在对大数据作出的定义为[15]: 大数据一般会涉及2 种或2 种以上数据形式。
它要收集超过100TB 的数据,并且是高速、实时数据流; 或者是从小数据开始,但数据每年会增长60%以上。
这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。
研究机构Gartner 给出了这样的定义[16]:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。
当前,较为统一的认识是大数据有四个基本特征: 数据规模大( Volume) ,数据种类多( Variety) ,数据要求处理速度快( Velocity) ,数据价值密度低( Value) ,即所谓的四V 特性。
这些特性使得大数据区别于传统的数据概念。
大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。
( 一) 数据量大大数据聚合在一起的数据量是非常大的,根据IDC 的定义至少要有超过100TB 的可供分析的数据,数据量大是大数据的基本属性。
导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据; 其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。
早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。
以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。
近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect 等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。
此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。
早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。
不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。
随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。