Hadoop基础知识培训 PPT

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop基础知识培训
主要内容
· 第一篇 Hadoop综述 ·第二篇 HDFS 分布式文件系统 · 第三篇 MapReduce 分布式计算框
架 ·第四篇 常用Hadoop组件介绍
把信息化打造成为中国电信企业核心竞争力之一
2
企业信息化部
第一篇Hadoop综述
: 什么是Hadoop : Hadoop生态系统 : Hadoop的厂商 : Hadoop的部署
简介: 江西电信Hadoop批 处理平 台共由62台PC服务 器构成, 形成物理上独立的 3个RACK ,按照功能角色分组,主控 节点、数据节点、Hive接入 节点、元数据节点、监控告 警节点和ETL节点。 主控节 点6台 (2台Namenode、1 台 Jobtracker、3台 Zookeeper) 数据节点56台
yMapReduce分布式计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分 布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题
Hadoop Nutch Lucene
高性能搜索
对应Cloudera公司的CDH3u5
高性能全文 引擎工具包
版本演进
索引工具包
把信息化打造成为中国电信企业核心竞争力之一
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个 blok会在多个datanode上存储多份副本,默认3份

Namenode:主要负责存储一些metadata信息,主要包括文件目录、block

和文件对应关系,以及block和datanote的对应关系
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
一: HDFS简介 二: HDFS 架构 三: 漫画HDFS之读写机 制 四: 漫画HDFS之容错 性 五: 漫画HDFS之复制 策略
把信息化打造成为中国电信企业核心竞争力之一
12
企业信息化部
1 HDFS简介
HDFS(HADOOP DISTRIBUTED ),是一个分布式文件系统。它 是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性, 能提供高吞吐量的数据访问,适合大规模数据集上的应用。 HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案
健壮 Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以 从容处理通用计算平台上出现的硬件失效情况。
简单 Hadoop允许用户快速编写出高效的并行分布式代码。
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
HADOOP生态系统
y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所 示:
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
一:MapReduce基础 二:MapReduce优劣 三: MapReduce工作原理


Datanode:负责存储数据,数据以block的形式存在
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
把信息化打造成为中国电信企业核心竞争力之一
(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是 Hadoop 厂商通过技术创新各显神通。
把信息化打造成为中国电信企业核心竞争力之一
3
企业信息化部
Hadoop是什么?
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文 件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了 底层细节透明的分布式基础设施。
yHDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署 在廉价的硬件上,构建分 布式系统。
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
大家有疑问的,可以询问和交流
可以互相讨论下,但要小声点
物理上的Hadoop集群
Leabharlann Baidu
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
逻辑部署的Hadoop集群
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
江西电信物理部署的Hadoop集群
对应Cloudera 公司的CDH4
企业信息化部
Hadoop的特点
Hadoop运用于海量数据处理,主要有如下几个优势:
方便 Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上
弹性 Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集; 同时在负载下降时,也可 减少节点,以便高效使用资源。
把信息化打造成为中国电信企业核心竞争力之一
企业信息化部
·发展目标
(1)实时应用场景(0~5s):Storm、S4等;
(2)交互式场景(5s~1m):这种场景通常能要求必须支持SQL,则可行系统有: Cloudera Impala、Apache Drill、Shark等;
(3)非交互式场景(1m~1h):通常运行时间较长,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;
把信息化打造成为中国电信企业核心竞争力之一
24
企业信息化部
MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由"Map(映射)"和"Reduce(归约)"组成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上
相关文档
最新文档