大数据技术导论

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

什么是大数据
❖定义3:
当数据的规模和性能要求成为数据管理分析系统
的重要设计和决定因素时,这样的数据就被称为大数

不是简单地以数据规模来界定大数据,要考虑数据查询 与分析的复杂程度
❖以目前计算机硬件的发展水平看
针对简单查询(如关键字搜索),数据量为TB至PB级时 可称为大数据
针对复杂查询(如数据挖掘),数据量为GB至TB级时即
可称为大数据
6
什么是大数据
定义4: 大数据有两个基本特征不同于传统的数据 集: 1.大数据不一定存储于固定的数据库,而 是分布在不同地方的网络空间 2.大数据以半结构化或非结构化数据为主, 具有较高的复杂性。
7
内容
1. 什么是大数据
2.研究背景
3. 深入思考
8
克强指数(Li keqiang index):
通过对Twitter等网上公开数据的实时感知、动 态获取与综合分析,结合仿真调控,预测大选 结果。
❖ 社会价值
例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格 动态
❖ 其他价值…
12
大数据的战略意义
• 大数据的深度资源挖掘与价值利用是国家战略
• 从 深空 + 深海 深网
深空探索
2012年我国神州 九号进入太空
深海探测
2012年我国蛟龙号 探测水下7000米
深网挖掘
实现大数据价值的
值得关注的大数据的若干研究方向 ➢分布式数据存储与管理:对大数据进行存储与管理 ➢数据挖掘与商务智能:对大数据规律进行挖掘与发现 ➢物联网与CPS:产生与形成大数据 ➢云计算及服务平台:存储和处理大数据及其业务 ➢关注点:海量数据处理 => 分布式存储与管理 => 云计算 => 数据挖掘与分析 => 海量业务处理 => 大服务
1998 年图灵奖得主、数据库技术奠基人Jim Gray认为数据驱动的研 究将是第四种科学研究范式
❖ ”The Fourth Paradigm: Data-Intensive Scientific Discovery”
大数据已为多个不同学科的研究工作提供了宝贵机遇
❖ 经济价值
麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业 和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益
耗电量 铁路货运量 银行贷款发放量
英国著名政经杂志《经济学 人》认为:克强指数比官方GDP 数字更能反映中国经济的现实状 况。花旗银行在编制时将各自权 重分别设定为40%、25%和35%。
大数据涉及诸多不同的领域
天文
ห้องสมุดไป่ตู้
气象
基因
医学
经济
物理
其他领域
用户生成数据
Deep Web数据
多模态内容数据
网络与关系数据
内容
1.什么是大数据
2. 研究背景 3. 深入思考
1
什么是大数据
❖ 定义1: 大数据是指无法在一定时间内用常
规软件工具对其内容进行抓取、管理 和处理的数据集合(维基百科定义)
Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture, curate, manage, and process the data within a tolerable elapsed time. --- Wiki
11
❖ 科研价值
大数据的价值 Data is the next Intel Inside. The future belongs to the companies and people that turn data into products. ----著名出版公司O‘Reilly的创始人Tim O‘Reilly
问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨
现有数据处理方法感知度量难、特征融合难、模式挖掘难
14
14
大数据的现实需求:预测未来
预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控 ,揭示事物发展的演变规律,进而对事物发展趋势进行预测
基于Twitter 数据的选举结果预测:
深度挖据和高度利用!
13
大数据的现实需求:感知现在
感知现在:历史数据与当前数据的融合, 潜在线索与模式的挖掘, 事件、群体与社会发展状态的感知
中国发展指数(物价、环境、健康)
犯罪线索挖掘
需求:掌握现状,如淘宝CPI、环境指数 需求:发现线索,如罪犯行为轨迹 难点:PB级社会媒体数据,百亿级日志数据, 难点:PB级日志数据、EB级监控数据中 结构与非结构数据关联,历史与流式数据并存 发现嫌疑人及其行为模式犹如大海捞针
2
什么是大数据
❖定义2:3V
Big Data are high-volume, highvelocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization -- Gartner
著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将 在各项财务指标上,超过未做准备的竞争对手20%
❖ 工业价值
分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理 和社会信息的分析能提升对客户的理解
二次开发:创造出新产品和服务。例如Facebook通过结合大量用户 信息,定制出高度个性化的用户体验,并创造出一种新的广告模式
3
大数据的4V特性
Volume
Velocity
Variety
Veracity
体量巨大 Volume
速度极快 Volume
到2020年,数据总量 分享的内容条目超过 达40ZB,人均5.2TB 25亿个/天,增加数
据超过500TB/天
模态多样
Volume
文本
图片
视频
音频
真伪难辨 Volume
4
大数据及其4V特征 ➢ 海量数据规模(volume):TB级 PB级 ➢ 快速处理(velocity):快速数据流转和动态数据体系 ➢ 多样数据类型(variety):数据类型繁杂 ➢ 巨大数据价值(value):价值稀疏、多样、不确定
相关文档
最新文档