第3章Hadoop分布式文件系统

合集下载

Hadoop分布式文件系统（HDFS）详解

Hadoop分布式⽂件系统（HDFS）详解HDFS简介：当数据集的⼤⼩超过⼀台独⽴物理计算机的存储能⼒时，就有必要对它进⾏分区 (partition)并存储到若⼲台单独的计算机上。

管理⽹络中跨多台计算机存储的⽂件系统成为分布式⽂件系统 (Distributed filesystem)。

该系统架构于⽹络之上，势必会引⼊⽹络编程的复杂性，因此分布式⽂件系统⽐普通磁盘⽂件系统更为复杂。

HDFS是基于流数据模式访问和处理超⼤⽂件的需求⽽开发的，它可以运⾏于廉价的商⽤服务器上。

总的来说，可以将 HDFS的主要特点概括为以下⼏点：（1 ）处理超⼤⽂件这⾥的超⼤⽂件通常是指数百 MB、甚⾄数百TB ⼤⼩的⽂件。

⽬前在实际应⽤中， HDFS已经能⽤来存储管理PB(PeteBytes)级的数据了。

在 Yahoo！，Hadoop 集群也已经扩展到了 4000个节点。

（2 ）流式地访问数据HDFS的设计建⽴在更多地响应“⼀次写⼊，多次读取”任务的基础之上。

这意味着⼀个数据集⼀旦由数据源⽣成，就会被复制分发到不同的存储节点中，然后响应各种各样的数据分析任务请求。

在多数情况下，分析任务都会涉及数据集中的⼤部分数据，也就是说，对HDFS 来说，请求读取整个数据集要⽐读取⼀条记录更加⾼效。

（3 ）运⾏于廉价的商⽤机器集群上Hadoop设计对硬件需求⽐较低，只须运⾏在廉价的商⽤硬件集群上，⽽⽆须昂贵的⾼可⽤性机器上。

廉价的商⽤机也就意味着⼤型集群中出现节点故障情况的概率⾮常⾼。

这就要求在设计 HDFS时要充分考虑数据的可靠性、安全性及⾼可⽤性。

正是由于以上的种种考虑，我们会发现现在的 HDFS在处理⼀些特定问题时不但没有优势，⽽且有⼀定的局限性，主要表现在以下⼏个⽅⾯。

（1 ）不适合低延迟数据访问如果要处理⼀些⽤户要求时间⽐较短的低延迟应⽤请求，则 HDFS不适合。

HDFS 是为了处理⼤型数据集分析任务的，主要是为达到⾼的数据吞吐量⽽设计的，这就可能要求以⾼延迟作为代价。

hadoop大数据技术实验指导书

Hadoop大数据技术实验指导书第一章实验概述1.1 实验目的本实验旨在全面了解Hadoop大数据技术的相关概念、架构和使用方法，通过实际操作掌握Hadoop大数据技术的基本应用和管理技能。

1.2 实验内容本实验内容包括Hadoop大数据技术的基本概念、HDFS分布式文件系统的搭建和管理、MapReduce分布式计算框架的使用、Hadoop 生态系统的其他相关工具等。

1.3 实验环境本实验采用Ubuntu 18.04操作系统，Hadoop版本为3.1.3，Java 版本为1.8。

1.4 实验预备知识对Linux操作系统的基本操作有一定了解，对Java编程语言有一定的基础认识，了解分布式系统和大数据概念。

第二章 Hadoop基础概念2.1 Hadoop概述Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据。

Hadoop项目由Apache软件基金会开发，主要包括Hadoop分布式文件系统（HDFS）和MapReduce分布式计算框架。

2.2 Hadoop架构Hadoop架构包括HDFS、MapReduce和YARN（资源调度和管理），HDFS负责数据的存储和管理，MapReduce负责数据的计算和处理，YARN负责集裙资源的调度和管理。

2.3 Hadoop生态系统除了HDFS和MapReduce，Hadoop生态系统还包括其他相关工具，如HBase（分布式数据库）、Hive（数据仓库）、Pig（数据分析）、Spark（内存计算框架）等。

第三章 HDFS分布式文件系统实验3.1 HDFS搭建1) 准备Hadoop安装包，解压到指定目录2) 配置hadoop-env.sh文件，设置JAVA_HOME环境变量3) 配置core-site.xml和hdfs-site.xml文件，设置Hadoop集裙的基本信息和存储路径3.2 HDFS管理1) 使用命令行工具上传、下载、删除文件2) 查看HDFS存储空间情况3) 监控HDFS集裙状态第四章 MapReduce分布式计算实验4.1 MapReduce程序编写1) 编写Map阶段的程序2) 编写Reduce阶段的程序3) 编译打包MapReduce程序4.2 MapReduce作业提交与监控1) 将MapReduce程序提交到Hadoop集裙2) 查看作业运行状态和日志3) 监控作业的运行情况第五章 Hadoop生态系统实验5.1 HBase实验1) 安装HBase并配置2) 创建HBase表并进行CRUD操作3) 监控HBase集裙状态5.2 Hive实验1) 安装Hive并配置2) 创建Hive表并进行数据查询3) 执行HiveQL语句进行数据分析5.3 Spark实验1) 安装Spark并配置2) 编写Spark应用程序3) 提交Spark应用程序到集裙运行结语通过本实验指导书的学习，相信读者对Hadoop大数据技术有了更深入的了解，掌握了HDFS的搭建与管理、MapReduce的编程与作业监控、Hadoop生态系统的应用等相关技能。

《大数据技术基础》-课程教学大纲

《大数据技术基础》课程教学大纲一、课程基本信息课程代码：16176903课程名称：大数据技术基础英文名称：Fundamentals of Big Data Technology课程类别：专业课学时：48学分：3适用对象: 软件工程，计算机科学与技术，大数据管理考核方式：考核先修课程：计算机网络，云计算基础，计算机体系结构，数据库原理，JA V A/Python 程序设计二、课程简介当前在新基建和数字化革命大潮下，各行各业都在应用大数据分析与挖掘技术，并紧密结合机器学习深度学习算法，可为行业带来巨大价值。

这其中大数据处理与开发框架等大数据技术是进行数字化，数智化应用建设的核心和基础，只有努力提升大数据处理与开发技术与性能，建立行业数字化和智能化转型升级才能成功。

大数据处理与开发技术是新基建和数字化革命核心与基础。

大数据技术基础课程，为学生搭建起通向“大数据知识空间”的桥梁和纽带，以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则，为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark、大数据在互联网、生物医学和物流等各个领域的应用。

在Hadoop、HDFS、HBase、MapReduce、Spark等重要章节，安排了入门级的实践操作，让学生更好地学习和掌握大数据关键技术。

同时本课程将介绍最前沿的业界大数据处理与开发技术和产品平台，包括阿里大数据服务平台maxcompute，华为大数据云服务平台FusionInsight，华为高性能分布式数据库集群GaussDB等业界最先进技术，以及国家大数据竞赛平台网站和鲸社区。

让学生学以致用，紧跟大数据领域最领先技术水平，同时，面对我国民族企业，头部公司在大数据领域取得的巨大商业成功与前沿技术成果应用产生强烈民族自豪感，为国家数字化经济与技术发展努力奋斗，勇攀知识高峰立下志向。

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲课程编号：3250578学分：4学分学时：72学时（其中：讲课学时36 上机学时：36）先修课程：《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程：Spark，《Python编程基础》、《Python数据分析与应用》适用专业：大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程，大数据技术入门课程。

通过学习课程使得学生掌握大数据分析的主要思想和基本步骤，并通过编程练习和典型应用实例加深了解；同时对Hadoop平台应用与开发的一般理论有所了解，如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。

开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。

完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。

二、教学条件要求操作系统：Center OSHadoop版本：Hadoop2.7.4开发工具：Eclipse三、课程的主要内容及基本要求第1章初识Hadoop第2章构建Hadoop集群第3章 HDFS分布式文件系统第4章 MapReduce分布式计算系统第5章 Zookeeper分布式协调服务第6章 Hadoop2.0新特性第7章 Hive数据仓库第8章 Flume日志采集系统第9章 Azkaban工作流管理器第10章 Sqoop数据迁移第11章综合项目——网站流量日志数据分析系统四、学时分配五、考核模式与成绩评定办法本课程为考试课程，期末考试采用百分制的闭卷考试模式。

学生的考试成绩由平时成绩（30%）和期末考试（70%）组成，其中，平时成绩包括出勤（5%）、作业（5%）、上机成绩（20%）。

六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。

七、大纲说明本课程的授课模式为：课堂授课+上机，其中，课堂主要采用多媒体的方式进行授课，并且会通过测试题阶段测试学生的掌握程度；上机主要是编写程序，要求学生动手完成指定的程序设计或验证。

分布式文件系统HDFSPPT课件

《大数据技术及应用》
信息科学与技术学院
2
3.1 分布式文件系统
• 3.1.1 • 3.1.2
计算机集群结构分布式文件系统的结构
《大数据技术及应用》
信息科学与技术学院
3
3.1.1计算机集群结构
•分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群 •与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销
客户端文件名或数据块号名称节点
(Client)
(NameNode)
数据块号、数据块位置
写数据读数据
数据节点 (DataNode)
数据节点（DataNode）
……
本地Linux文件系统
本地Linux文件系统
机架1
……
备份
数据节点
数据节点
（DataNode）
（DataNode）
……
本地Linux文件系统
Ø名称节点起来之后，HDFS中的更新操作会重新写到EditLog 文件中，因为FsImage文件一般都很大（GB级别的很常见），如果所有的更新操作都往FsImage文件中添加，这样会导致系统运行的十分缓慢，但是，如果往EditLog文件里面写就不会这样，因为EditLog 要小很多。每次执行写操作之后，且在向客户端发送成功代码之前，edits文件都需要同步更新。
《大数据技术及应用》
信息科学与技术学院
17
3.4.3通信协议
• HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输。 • 所有的HDFS通信协议都是构建在TCP/IP协议基础之上的。 • 客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互。 • 名称节点和数据节点之间则使用数据节点协议进行交互。 • 客户端与数据节点的交互是通过RPC（Remote Procedure Call）来实现的。在设计上，名称节点不会主动发起RPC，而是响应来自客户端和数据节点的RPC请求。

第3章分布式文件及数据库系统

– 每一个文件具有唯一的逻辑地址，每一个文件副本对应一个物理地址
26/20
名字服务器
• 文件服务器管理
– 动态管理文件服务器
• 添加、删除文件服务器
– 指导文件服务器进行文件备份
• 同一个文件在两台文件服务器中保存副本
– 实时获取文件服务器信息
• 剩余空间、负载
– 文件服务器选择策略:剩余空间+负载
3.3.2 分布式数据库系统的定义
分布式数据库包含两个重要组成部分：分布式数据库（DDB）和分布式数据库管理系统（DDBMS）。分布式数据库是计算机网络环境中各场地上数据库的逻辑集合。分布式数据库管理系统是分布式数据库系统中的一组软件，它复杂管理分布环境下逻辑集成数据的存取、一致性、有效性和完备性。
28/20
文件的传输
• 文件服务器：监控管理程序
– 监控文件服务器信息，提供当前的磁盘空间等资源信息 – 响应删除文件命令，删除文件服务器上的文件 – 响应备份命令，将本地文件备份到另一文件服务器上
• 客户端使用的工具包
– 上传文件、下载文件、删除文件 – ftp协议
• NS使用的工具包
– 提供资源信息查询 – 通知备份文件到第三方文件服务器 – 删除文件服务器上的备份文件功能
3.3.3分布式数据库的基本特点
物理分布性：数据不是存储在一个场地上，而是存储在计算机网络的多个场地上。
• MapReduce 模式的思想是通过自动分割将要执行的问题(程序)、拆解成Map(映射)和 Reduce(化简)的方式。
• 在自动分割后通过Map 程序将数据映射成不相关的区块，分配(调度)给大量计算机处理达到分散运算的效果，再通过Reduce 程序将结果汇整，输出开发者需要的结果。

大数据_hadoop_分布式文件系统

2.HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目，是Hadoop主要应用的一个分布式文件系统。注：HDFS只是Hadoop抽象文件系统的一个实例，还包括本地文件系统、HFTP、S3等。
一、Hadoop文件系统
1.Hadoop文件系统
二、HDFS简介
1.HDFS
HDFS是基于流数据模式访问和处理超大文件的需求而开发的，它可以运行于廉价的商用服务器上。
2.HDFS的主要特点：
（1）处理超大文件实际应用中，HDFS已经用来存储PB级的数据了。（2）流式的访问数据运行在HDFS上的应用程序必须流式地访问他们的数据集。 HDFS的设计适合批量处理，而不是用户交互式的。重点是数据吞吐量（通常分析任务都会涉及数据集的大部分数据不适合低延迟数据访问
HDFS是为了处理大型数据集分析任务，主要是为了达到高的数据吞吐量而设计的，这就要求可能以高延迟为代价。注：对于低延迟的访问需求，HBase是更好地选择。
（2）无法高效存储大量小文件 Hadoop中由namenode负责将文件系统中的元数据存储在内存中，因此文件系统存储的文件总数受限于namenode的内存容量。当存储大量的小文件时，会大大增加namenode的工作压力，检索处理元数据所需的时间就会很长。
四、HDFS的基本操作
1.HDFS命令行操作
可以通过命令行接口和HDFS进行交互。
（1）下面以单机上运行Hadoop、执行单机伪分布为例：
在单机伪分布中需要修改两个配置属性： ① 修改属性：令 =hdfs://localhost/ 注：hadoop默认使用HDFS文件系统；在本机localhost运行 HDFS，其端口默认采用8020.

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3、HDFS的优缺点优点: （1）支持超大文件的处理（2）支持流式的访问数据（3）可构建在廉价机器上
3、HDFS的优缺点缺点: （1）不适合低延时数据访问（2）无法高效存储大量小文件（3）不支持多用户并发写入和任意修改文件
1、数据块（Block）传统的文件系统中，为提高磁盘读写效率，通常不是以字节为
一、HDFS读写流程 1、HDFS读数据流程客户端通过连续调用open（）、read（）、close（）读取数据，具体执行过程如下图3-2所示：
一、HDFS读写流程（1）客户端发送请求，调用DistributedFileSystem的create方法创建文件。调用create方法后，DistributedFileSystem会创建FSDataOutputStream输出流。（2）DistributedFileSystem通过RPC远程调用Namenode，在文件系统的命名空间中创建一个新文件。此时，Namenode 会做一系列的检查，比如文件是否已经存在、客户端是否拥有
HDFS采用了主从（Master/Slave）结构，如图3-1所示。一个 HDFS集群是由一个名称节点（NameNode）和多个数据节点（DataNode）组成，通常配置在不同的机器上。名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。而数据节点，通常是一个节点一台机器，是分布式文件系统HDFS的工作节点，负责对应节点数据的存储和读取，会根据客户端或者是名字节点的调度来进行数据的存储和检索。
一、HDFS读写流程（4）每个DataNode写完一个块后，会返回确认信息。 FSDataOutputStream内部维护着一个确认队列。当接收到所有DataNode确认写完的信息后，数据才会从确认队列中进行删除。
（5）当客户端写完所有数据，调用close方法关闭输出流。
二、HDFS副本机制与机架感知策略 HDFS作为一个分布式文件系统，为了保证其系统的可靠性和容错性，采用了多副本的方式存储数据。副本的数量可以在
二、HDFS副本机制与机架感知策略 HDF，则把第一个副本放置在发起写操作请求的数据节点上，实现就近写入数据。若是来自集群外部的写操作请求，则随机挑选一个磁盘不太满、CPU不太忙的数据节点进行第一个副本的存储。（2）第二个副本会被放置在和第一个副本不同机架数据节点上。（3）第三个副本则会被放置在和第二个副本相同机架不同数据节点上。（4）如果还有更多的副本，则会随机从集群中选择数据节点进行存放
创建文件权限等。若通过检查，Namenode会构造一个新文件，并添加相关文件信息。
一、HDFS读写流程（3）客户端调用FSDataOutputStream的write方法将数据写到一个内部队列中。如果数据副本数量是3，则将队列中的数据写入3个副本对应的Datanode上。但并不是由客户端分别往3个 Datanode上写3份，而是由已经收到数据包的第一个Datanode，将数据包发送给第二个Datanode，第二个datanode再将数据包发送给第三个Datanode。
单位，而是以数据块为单位。HDFS同样采用了数据块的概念，最基本的存储单位即是数据块，Hadoop3.0版本默认数据块的大小是128M（有些旧版本为64M）。
2、名称节点（Namenode）在HDFS中，名称节点主要负责管理分布式文件系统的命名空间，它将所有的文件和文件夹的元数据保存在一个文件系统树中。Namenode是整个文件系统的管理节点，维护着整个文件系统的文件目录树，元数据信息和每个文件对应的数据块列表，并接收用户的操作请求。
2、HDFS简介 HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，是Apache Hadoop的核心子项目。HDFS支持海量数据的存储，是分布式计算中数据存储和管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。
hdfs-site.xml配置文件中通过参数设定，如下所示。通常每个数据块默认三个副本，每个副本会分配到不同的数据节点上。
<property>
<name>dfs.replication</name>
<value>3</value>
--此处的3代表三个副本
</property>
二、HDFS副本机制与机架感知策略 HDFS数据块默认副本为三，通常每个数据块都会被保存在不同的三个地方。其中，有两个副本存储在同一个机架的不同机器上面，第三个副本存储在不同机架的机器上面.
第3章Hadoop分布式文件系统
目录
1 认识HDFS 2 HDFS相关概念 3 HDFS体系结构 4 HDFS运行原理及保障
1、分布式文件系统相对于传统的本地文件系统而言，分布式文件系统（Distributed File System）是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统允许将一个文件通过网络在多台主机上以多副本的方式进行存储，实际上就是通过网络来访问文件，但用户和程序看起来跟访问本地的磁盘一样。目前，应用广泛的分布式文件系统主要包括GFS和HDFS， HDFS是GFS的开源实现。
3、数据节点（Datanode）在HDFS中，数据节点是工作节点，负责数据的真正存储和
读取，会根据Namenode的调度来进行数据的存储和检索，并且定期向Namenode发送自己所存储的块的列表。所有数据节点的数据保存在各自节点的本地Linux文件系统中。
4、第二名称节点（Secondary Namenode） Secondary Namenode并不是Namenode节点出现问题时的备用节点，HDFS也并不支持把系统直接切换到Secondary Namenode。 NameNode元数据信息存储在FsImage中，NameNode每次重启后会把FsImage读取到内存中，在运行过程中为了防止数据丢失，NameNode的操作会被不断的写入本地EditLog文件中。