hadoop入门基础PPT课件
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
Hadoop 1.0
Zooke Hbase eper
Hive
Pig
MapReduce
Hadoop HDFS
Hadoop 2.0
Zooke eper
Hbase
ຫໍສະໝຸດ Baidu
Hive
Pig
MapReduce
Others(Spark等) Yurm
Hadoop HDFS
10
Hadoop版本
Hadoop1.0 表示第一代(0.20.x , 0.21.x , 0.22.x 演化而来),特点:一个 namenode(所有datanode中数据的映射或者叫镜像,访问datanode 中的数据时是先访问namenode,然后找到datanode),若干datanode (单纯存放数据的节点) Secondary namenode,0.21.x ,0.22.x 版本中新增加的概念,就是 namenode的一个备份节点,防止namenode挂掉之后影响整个hadoop 集群的正常工作 Hadoop2.0 表示第二代(0.23.x ,0.24.x),特点:架构中在hdfs上添加了yarn(资 源管理框架)这一层,hdfs federstion(namenode联盟,有很多 namenode)
8
HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储 系统”。就像Bigtable利用了Google文件系统(File System)所提供的 分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能 力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系 数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的 是HBase基于列的而不是基于行的模式。
MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行 运算。概念“Map(映射)”和“Reduce(归约)”,和它们的主要思想, 都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。 它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的 程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射) 函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce (归约)函数,用来保证所有映射的键值对中的每一个共享相同的键 组。
Pig
Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布 式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。
7
Zookeeper
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系 统的可靠协调系统,提供的功能包括:配置维护、名字服务、分 布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的 关键服务,将简单易用的接口和性能高效、功能稳定的系统提供 给用户。 Zookeeper是Google的Chubby一个开源的实现,是高有效和可靠的 协同工作系统,Zookeeper能够用来leader选举,配置信息维护等, 在一个分布式的环境中,需要一个Master实例或存储一些配置信息, 确保文件写入的一致性等. ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务, 包含一个简单的原语集,是Hadoop和Hbase的重要组件。
5
MapReduce
<k1,value1> <k1,value1> <k1,value1> <k1,value1>
Mapper Mapper Mapper Mapper
<k2,value2> <k2,value2> <k2,value2> <k2,value2>
Reducer Reducer
Result
大数据之Hadoop入门基础
1
大数据 Hadoop Hadoop生态圈 Hadoop版本 HBase Hadoop商业应用案例(淘宝技术架构)
2
大数据以及大数据时代
“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时, 大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据 集。随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅 用来描述大量的数据,还涵盖了处理数据的速度。
MapReduce 2.0应用场景、原理与基本架构
6
Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文 件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语 句转换为MapReduce任务进行运行。 其优点是学习成本低,可以 通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓库的统计分析。
美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻 一番,而目前世界上90%以上的数据是最近几年才产生的。
2008
0.49ZB
2009
0.8ZB
2010
1.2ZB
2011
1.82ZB
3
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利 用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System), 简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(lowcost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS 放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access) 文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海 量的数据提供了存储,则MapReduce为海量的数据提供了计算框架。
Hadoop生态圈:Hbase,Hive,Pig,Zookeeper,Storm,Spark等等
4
HDFS
分布式文件系统(Hadoop Distributed File System),简称HDFS
Hadoop 1.0
Zooke Hbase eper
Hive
Pig
MapReduce
Hadoop HDFS
Hadoop 2.0
Zooke eper
Hbase
ຫໍສະໝຸດ Baidu
Hive
Pig
MapReduce
Others(Spark等) Yurm
Hadoop HDFS
10
Hadoop版本
Hadoop1.0 表示第一代(0.20.x , 0.21.x , 0.22.x 演化而来),特点:一个 namenode(所有datanode中数据的映射或者叫镜像,访问datanode 中的数据时是先访问namenode,然后找到datanode),若干datanode (单纯存放数据的节点) Secondary namenode,0.21.x ,0.22.x 版本中新增加的概念,就是 namenode的一个备份节点,防止namenode挂掉之后影响整个hadoop 集群的正常工作 Hadoop2.0 表示第二代(0.23.x ,0.24.x),特点:架构中在hdfs上添加了yarn(资 源管理框架)这一层,hdfs federstion(namenode联盟,有很多 namenode)
8
HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储 系统”。就像Bigtable利用了Google文件系统(File System)所提供的 分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能 力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系 数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的 是HBase基于列的而不是基于行的模式。
MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行 运算。概念“Map(映射)”和“Reduce(归约)”,和它们的主要思想, 都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。 它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的 程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射) 函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce (归约)函数,用来保证所有映射的键值对中的每一个共享相同的键 组。
Pig
Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布 式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。
7
Zookeeper
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系 统的可靠协调系统,提供的功能包括:配置维护、名字服务、分 布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的 关键服务,将简单易用的接口和性能高效、功能稳定的系统提供 给用户。 Zookeeper是Google的Chubby一个开源的实现,是高有效和可靠的 协同工作系统,Zookeeper能够用来leader选举,配置信息维护等, 在一个分布式的环境中,需要一个Master实例或存储一些配置信息, 确保文件写入的一致性等. ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务, 包含一个简单的原语集,是Hadoop和Hbase的重要组件。
5
MapReduce
<k1,value1> <k1,value1> <k1,value1> <k1,value1>
Mapper Mapper Mapper Mapper
<k2,value2> <k2,value2> <k2,value2> <k2,value2>
Reducer Reducer
Result
大数据之Hadoop入门基础
1
大数据 Hadoop Hadoop生态圈 Hadoop版本 HBase Hadoop商业应用案例(淘宝技术架构)
2
大数据以及大数据时代
“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时, 大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据 集。随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅 用来描述大量的数据,还涵盖了处理数据的速度。
MapReduce 2.0应用场景、原理与基本架构
6
Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文 件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语 句转换为MapReduce任务进行运行。 其优点是学习成本低,可以 通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓库的统计分析。
美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻 一番,而目前世界上90%以上的数据是最近几年才产生的。
2008
0.49ZB
2009
0.8ZB
2010
1.2ZB
2011
1.82ZB
3
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利 用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System), 简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(lowcost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS 放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access) 文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海 量的数据提供了存储,则MapReduce为海量的数据提供了计算框架。
Hadoop生态圈:Hbase,Hive,Pig,Zookeeper,Storm,Spark等等
4
HDFS
分布式文件系统(Hadoop Distributed File System),简称HDFS