Hadoop大数据平台介绍

相关主题

大数据平台hadoop

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Dபைடு நூலகம்
DataNode1 DataNode2 DataNode3
机架1
HDFS体系结构
AC B
DB E
DataNode4 DataNode5
机架2
DataNode是HDFS的工作节点，存放数据块
读取元数据
NameNode
Secondary NameNode
客户端
元数据更新
读取数据块
AC AE CE
DataNode4 DataNode5
机架1
机架2
二级NameNode定期同步元数据映射文件和修改日志
NameNode发生故障时，备胎转正。
HDFS中文件读写的流程
① 文件读取请求
NameNode
② 返回元数据
客户端
③ 读取数据块
③ 读取数据块
③ 读取数据块
Secondary NameNode
AC D
大型机
革命性变化1：成本降低，能用PC机，就不用大型机和高端存储
革命性变化1：成本降低，能用PC机，就不用大型机和高端存储
革命性变化2：软件容错硬件故障视为常态，通过软件保证可靠性
软件高可靠性硬件故障
革命性变化3：简化并行分布式计算，无须控制节点同步和数据交换
MapReduce
但是，Google只发表了相关的技术论文，没有开放源代码。一个模仿Google大数据技术的开源实现来了。
AC D
AE B
CE D
AC B
DB E
DataNode1 DataNode2 DataNode3
DataNode4 DataNode5
机架1
机架2
HDFS写入文件的流程
HDFS的特点
① 数据冗余，硬件容错 ② 流式的数据访问 ③ 适合存储大文件
HDFS的特点
① 文件拆分成块
NameNode
② 返回DataNodes
搜索引擎
日志分析
商业智能
数据挖掘
Hadoop的优势
优势1：高扩展
优势2：低成本
优势3：成熟的生态圈
目录
Hadoop概述 HDFS介绍 MapReduce介绍
HDFS基本概念
块（Block） NameNode DataNode
HDFS的文件被分成块进行存储 HDFS块的默认大小是64MB
复制
D
B
D
DataNode1 DataNode2 DataNode3
机架1
HDFS体系结构
AC B
DB E
DataNode4 DataNode5
机架2
HDFS中数据管理与容错
读取元数据
数据块副本
NameNode
Secondary NameNode
客户端
元数据更新
读取数据块
AC AE CE
复制
D
B
D
AC B
DB E
DataNode1 DataNode2 DataNode3
DataNode4 DataNode5
机架1
机架2
每个数据块3个副本，分布在两个机架内的三个节点
读取元数据
数据块副本
NameNode
Secondary NameNode
客户端
元数据更新
读取数据块
AC AE CE
复制
D
B
D
AC B
块是文件存储处理的逻辑单元
HDFS中有两类节点 NameNode 和 DataNode
NameNode是管理节点，存放文件元数据
① 文件与数据块的映射表 ② 数据块与数据节点的映射表
读取元数据
NameNode
Secondary NameNode
客户端
元数据更新
读取数据块
AC AE CE
复制
D
B
Hadoop大数据平台介绍
目录
Hadoop概述 HDFS介绍 MapReduce介绍
如何对大数据进行存储与分析呢？
系统瓶颈
存储容量
读写速度
计算效率
…
Google大数据技术
MapReduce BigTable GFS
革命性变化1：成本降低，能用PC机，就不用大型机和高端存储
小型机
…… 磁盘阵列
DataNode4 DataNode5
机架1
机架2
DataNode定期向NameNode发送心跳消息
读取元数据
二级NameNode
NameNode
FsImage Editlog
Secondary NameNode
客户端
元数据更新
读取数据块
AC AE CE
复制
D
B
D
AC B
DB E
DataNode1 DataNode2 DataNode3
为何取名Hadoop？
Hadoop是什么？
开源的
分布式存储 + 分布式计算平台
Hadoop的组成
包括两个核心组成：
HDFS：分布式文件系统，存储海量的数据 MapReduce：并行处理框架，实现任务分解和调度
Hadoop可以用来做什么？
搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务
DB E
DataNode1 DataNode2 DataNode3
DataNode4 DataNode5
机架1
机架2
每个数据块3个副本，分布在两个机架内的三个节点
读取元数据
数据块副本
NameNode
Secondary NameNode
客户端
元数据更新
读取数据块
AC AE CE
复制
D
B
D
AC B
DB E
DataNode4 DataNode5
机架1
机架2
DataNode定期向NameNode发送心跳消息
读取元数据
客户端
心跳消息
心跳检测
NameNode
心跳消息
Secondary NameNode
心跳消息
AC AE CE
复制
D
B
D
AC B
DB E
DataNode1 DataNode2 DataNode3
DataNode1 DataNode2 DataNode3
DataNode4 DataNode5
机架1
机架2
每个数据块3个副本，分布在两个机架内的三个节点
读取元数据
客户端
心跳消息
心跳检测
NameNode
心跳消息
Secondary NameNode
心跳消息
AC AE CE
复制
D
B
D
AC B
DB E
DataNode1 DataNode2 DataNode3
AE B
CE D
AC B
DB E
DataNode1 DataNode2 DataNode3
DataNode4 DataNode5
机架1
机架2
HDFS读取文件的流程
① 文件拆分成块
NameNode
② 返回DataNodes
客户端
③ 写入数据块
④ 流水线复制
Secondary NameNode
⑤ 更新元数据
客户端
③ 写入数据块
④ 流水线复制
⑤ 更新元数据
Secondary NameNode
AC D
AE B
CE D
AC B
DB E
DataNode1 DataNode2 DataNode3
DataNode4 DataNode5
机架1
机架2
HDFS写入文件的流程
适用性和局限性