1. 大数据概述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图计算
◦ 针对大规模图结构数据的处理(社交网络)
Pregel、GraphX、Giraph(FaceBook)、PowerGraph、Hama等
查询分析计算
◦ 大规模数据的存储管理和查询分析
Hive、Cassandra、Impala等
对云计算的定义有多种说法。对于到底什么是云 计算,至少可以找到100种解释。现阶段广为接 受的是美国国家标准与技术研究院(NIST)定义:
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互
联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式 联在一起,形成人与物、物与物相联,实现信息化和远程管理控制
物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器 等)、网络与通信技术、数据挖掘与融合技术等
矩阵式二维码
通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出于 变万化的应用,同一片“云”可以同时支撑不同的应用运行。
高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长 的需要。
按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、 电和煤气那样计费。
极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构 成云;“云”的自动化管理使数据中心管理成本大幅降低;“云”的公用 性和通用性使资源的利用率大幅提升;“云”设施可以建在电力资源丰 富的地区,从而大幅降低能源成本。
医学信息学
MEDICAL INFORMATICS
医疗卫生
HEALTH CARE
社会科学
SOCIAL SCIENCES
人文科学
HUMANITIES
技术层面 数据采集
功能
利用ETL工具将分布的、异构数据源中的数据如关系数据、平 面数据文件等,抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中,成为联机分析处理、数据 挖掘的基础;或者也可以把实时采集的数据作为流计算系统的 输入,进行实时处理分析
涉及大数据的行业
影响了几乎所有的行业
机器翻 译
MACHINE TRANSLAT
ION
语音识 别
SPEECH RECOGNITI
ON
机器人
ROBOTICS
搜索引 擎
SEARCH ENGINE
数字经济
DIGITAL ECONOMY
经济
ECONOMY
商业
BUSINESS
金融
FINANCE
生物科学
BIOLOGICAL SCIENCES
知识
==>
获 取
关于“从不同形态的数据中获取知识的过程和系统”的科学称为 数据科学
哲学上定义对知识的学习为
认知
信息化浪潮 发生时间
标志
第一次浪潮 1980年前后 个人计算机
解决问题
代表企业
信息处理
Intel、AMD、IBM、 苹果、微软、联想、 戴尔、惠普等
第二次浪潮 1995年前后 互联网
信息传输
根据IDC作出的估测,数据一直都在以每 年50%的速度增长,也就是说每两年就增长 一倍(大数据摩尔定律)
人类在最近两年产生的数据量相当于之前 产生的全部数据量,预计到2020年,全球 将总共拥有35ZB的数据量,相较于2010年, 数据量将增长近30倍
关系型数据库
大数据是由结构化和非结构化数据组成的
云计算为大数据提供了技术基础 大数据为云计算提供用武之地
大数据
物联网是大数据的重要来源 大数据技术为物联网数据分析提供支撑
云计算为物联网提供海量数据存储能力 物联网为云计算技术提供了广阔的应用空间
云计算
物联网
大数据的本质 大数据与云计算的介绍 理解大数据中的相关概念 云计算
◦ Iaas ◦ Paas ◦ Saas
数据存储和管理
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库 、云数据库等,实现对结构化、半结构化和非结构化海量数据 的存储和管理
数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖 掘算法,实现对海量数据的处理和分析;对分析结果进行可视 化呈现,帮助人们更好地理解数据、分析数据
采用RFID芯片的公交卡
(a)温湿度传感器
(b)压力传感器
不同类型的传感器
(c)烟雾传感器
物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、
智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国 民经济与社会发展起到了重要的推动作用
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既 有区别又有联系
云计算将IT资源和功能以服务的方式通过网络交付给用户。简单来说,
就是把应用程序和数据都放在由大量服务器组成的云中,用户需要什 么只要购买相应服务并使用即可。
IaaS: Infrastructure-as-a-Service(基础设施即服务)
IaaS, 是Infrastructure-as-a-Service(基础设施即服务)的简称,是 把数据中心、基础设施硬件资源通过Web分配给用户使用的商业模 式。IaaS领域最引人注目的例子就是亚马逊公司的Elastic Compute Cloud。IBM、VMware、HP等传统IT服务提供商也推出了相应的 IaaS产品。值得一提的是,IaaS服务很好地实实现了云计算按需付费 的理 念,通过“弹性云”用户可只在需要时才接入这些基础设施资 源,并只为自己使用的部分。
主讲:温春水
大数据相关概念 大数据相关技术 基于Hadoop的分布式环境搭建
• 大数据的本质 • 大数据技术框架 • 大数据的价值 • 大数据的发展历史 • 大数据与云计算的介绍 • 物联网介绍
大数据(数据科学)的本质
(believed) ( justified) (truth)
哲学上定义人们 相信的 那些 有依据的 真相 为
掌握大数据、云计算、物联网的关系
云计算是一种按使用量付费的模式,这种模式提 供可用的、便捷的、按需的网络访问, 进入可配
置的计算资源共享池(资源包括网络,服务器, 存储,应用软件,服务)。
超大规模的计算机集群,通过软件技术整合起来, 能够按需按量支付提供“服务”。
◦ 大规模计算机集群 ◦ 能提供服务 ◦ 伸缩性具有弹性可扩展 ◦ 提供api
雅虎、谷歌、阿里巴 巴、百度、腾讯等
物联网、云 第三次浪潮 2010年前后 计算和大数

信息爆炸
涌现出一批新的市场 标杆企业
掌握大数据的组织与处理的能力
Variety
Velocity
RealTime near RealTime periodi
c
batch MB GB TB PB
Volume
Value
数据隐私和安全
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构 建隐私数据保护体系和数据安全体系,有效保护个人隐私和数 据安全
批处理计算
◦ 针对大规模数据的批量处理
MapReduce(分布式) Spark
流计算
◦ 针对流数据的实时计算
商业:IBM InfoSphere Streams , IBM StreamBase 开源:Storm、S4 (Simple Scalable Streaming System) 企业自身需求:Dstream(百度)
Iaasห้องสมุดไป่ตู้次的云计算
◦ 云计算鼻祖:亚马逊 ec2 http://aws.amazon.com/cn/ EC2
◦ http:// www.aliyun.com
阿里云
◦ http://www.qcloud.com/
腾讯云
◦ http://www.windowsazure.cn/
微软云平台
虚拟化。云计算支持用户在任意位置使用各种终端获取服务。所请求 的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处 运行,但实际上用户无需了解应用运行的具体位置,只需要一台笔记 本或一个PDA,就可以通过网络服务来获取各种能力超强的服务。
高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措 施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。
◦ http://www.ucloud.cn/ ◦ http://www.qiniu.com/ ◦ 百度网盘,360网盘等等
通过这个层次去通俗理解云计算
◦ 计算机池提供基础架构服务
◦ 自来水公司
Iaas提供基础架构服务
◦ 存储,主机,计算,带宽等等
超大规模。“云”具有相当的规模,Google云计算已经拥有100多 万台服务器,亚马逊、IBM、微软和Yahoo等公司的“云”均拥有几 十万台服务器。“云”能赋予用户前所未有的计算能力。
–10%的结构化数据,存储在数据库中 –90%的非结构化数据,它们与人类信息密切相关
非结构化数据类型多样
–邮件、视频、微博 –位置信息、链接信息 –手机呼叫、网页点击 –“长微博”
从数据的生成到消耗,时间窗口非常小,可用于生 成决策的时间非常少
以视频为例,连续不间断监控过程中,可能有用的 数据仅仅有一两秒,但是具有很高的商业价值
相关文档
最新文档