大数据平台Hadoop基础学习

合集下载

Hadoop大数据开发基础教案Hadoop介绍教案

Hadoop大数据开发基础教案Hadoop介绍教案第一章：Hadoop概述1.1 课程目标了解Hadoop的定义、发展历程及应用场景掌握Hadoop的核心组件及其作用理解Hadoop在大数据领域的优势1.2 教学内容Hadoop的定义与发展历程Hadoop的核心组件：HDFS、MapReduce、YARN Hadoop的应用场景与优势1.3 教学方法讲解与案例分析相结合互动提问，巩固知识点1.4 课后作业简述Hadoop的发展历程及其在大数据领域的优势。

第二章：HDFS（分布式文件系统）2.1 课程目标掌握HDFS的架构与工作原理了解HDFS的优势与局限性掌握HDFS的常用操作命令2.2 教学内容HDFS的架构与工作原理HDFS的优势与局限性HDFS的常用操作命令：hdfs dfs, hdfs dfsadmin2.3 教学方法讲解与实践操作相结合案例分析，理解HDFS的工作原理2.4 课后作业利用HDFS命令练习文件的与。

第三章：MapReduce编程模型3.1 课程目标掌握MapReduce的基本概念与编程模型理解MapReduce的运行原理与执行过程学会使用MapReduce解决大数据问题3.2 教学内容MapReduce的基本概念：Mapper、Reducer、Shuffle与Sort MapReduce的编程模型：Map阶段、Shuffle阶段、Reduce阶段MapReduce的运行原理与执行过程3.3 教学方法讲解与编程实践相结合剖析经典MapReduce案例，理解编程模型3.4 课后作业编写一个简单的MapReduce程序，实现单词计数功能。

第四章：YARN（资源管理器）4.1 课程目标掌握YARN的基本概念与架构了解YARN的工作原理与调度策略掌握YARN的资源管理与优化方法4.2 教学内容YARN的基本概念与架构YARN的工作原理与调度策略YARN的资源管理与优化方法4.3 教学方法讲解与案例分析相结合实操演练，掌握YARN的资源管理方法4.4 课后作业分析一个YARN集群的资源使用情况，提出优化方案。

hadoop大数据技术基础 python版

Hadoop大数据技术基础 python版随着互联网技术的不断发展和数据量的爆炸式增长，大数据技术成为了当前互联网行业的热门话题之一。

Hadoop作为一种开源的大数据处理评台，其在大数据领域的应用日益广泛。

而Python作为一种简洁、易读、易学的编程语言，也在大数据分析与处理中扮演着不可或缺的角色。

本文将介绍Hadoop大数据技术的基础知识，并结合Python编程语言，分析其在大数据处理中的应用。

一、Hadoop大数据技术基础1. Hadoop简介Hadoop是一种用于存储和处理大规模数据的开源框架，它主要包括Hadoop分布式文件系统（HDFS）和MapReduce计算框架。

Hadoop分布式文件系统用于存储大规模数据，而MapReduce计算框架则用于分布式数据处理。

2. Hadoop生态系统除了HDFS和MapReduce之外，Hadoop生态系统还包括了许多其他组件，例如HBase、Hive、Pig、ZooKeeper等。

这些组件形成了一个完整的大数据处理评台，能够满足各种不同的大数据处理需求。

3. Hadoop集群Hadoop通过在多台服务器上构建集群来实现数据的存储和处理。

集群中的各个计算节点共同参与数据的存储和计算，从而实现了大规模数据的分布式处理。

二、Python在Hadoop大数据处理中的应用1. Hadoop StreamingHadoop Streaming是Hadoop提供的一个用于在MapReduce中使用任意编程语言的工具。

通过Hadoop Streaming，用户可以借助Python编写Map和Reduce的程序，从而实现对大规模数据的处理和分析。

2. Hadoop连接Python除了Hadoop Streaming外，Python还可以通过Hadoop提供的第三方库和接口来连接Hadoop集群，实现对Hadoop集群中数据的读取、存储和计算。

这为Python程序员在大数据处理领域提供了更多的可能性。

Hadoop知识点总结

Hadoop知识点总结Hadoop知识点总结1.什么是hadoop?hadoop是⼀个开源软件框架，⽤于存储⼤量数据，并发处理/查询在具有多个商⽤硬件(即低成本硬件)节点的集群上的那些数据。

总之Hadoop包括⼀下内容：HDFS(Hadoop分布式⽂件系统)：允许以⼀种分布式和冗余的⽅式存储⼤量数据。

例如：1GB(即1024MB)⽂本⽂件可以拆分为16*128MB⽂件，并存储在Hadoop集群中的8个不同节点上。

每个分裂可以复制三次，以实现容错，以便如果⼀个节点出现错误的话，也有备份。

HDFS适⽤于顺序的"⼀次写⼊，多次读取"的类型访问。

MapReduce:⼀个计算框架。

它以分布式和并⾏的⽅式处理⼤量的数据，当你对所有年龄>18的⽤户在上述1GB⽂件上执⾏查询时，将会有"8个映射"函数并⾏运⾏，以在其128MB拆分⽂件中提取年龄>18的⽤户，然后"reduce"函数将将会运⾏以将所有单独的输出组合成单个最终结果。

YARN(⼜⼀资源定位器)：⽤于作业调度和集群资源管理的框架。

Hadoop⽣态系统，拥有15多种框架和⼯具，如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等以便将数据摄⼊HDFS，在HDFS中转移数据(即变换、丰富、聚合等)，并查询来⾃HDFS的数据⽤于商业智能和分析。

某些⼯具(如Pig和Hive)是MapReduce上的抽象层，⽽Spark和Impala等其他⼯具则是来⾃MapReduce的改进架构/设计，⽤于显著提⾼延迟以⽀持近实时和实时处理2.为什么组织从传统的数据仓库⼯具转移到基于Hadoop⽣态系统的智能数据中⼼？1.现有数据基础设施：主要使⽤存储在⾼端和昂贵硬件中的"structured data，结构化数据"主要处理为ETL批处理作业，⽤于将数据提取到RDBMS和数据仓库系统中进⾏数据挖掘，分析和报告，以进⾏关键业务决策主要处理以千兆字节到兆字节为单位的数据量2.基于Hadoop的更加智能的数据基础设施，其中：结构化(例如RDBMS)，⾮结构化(例如images,PDF,docs)和半结构化(例如logs,XMLs)的数据可以以可扩展和容错的⽅式存储在⽐较便宜的商⽤机器中数据可以存储诸如Spark和Impala之类的⼯具以低延迟的能⼒查询可以存储以兆兆字节到千兆字节为单位的较⼤数据量3.基于Hadoop的数据中⼼的好处是什么？随着数据量和复杂性的增加，提⾼量整体服务⽔平协议。

大数据分析技术基础教学课件3-大数据处理平台Hadoop

•dfs.replication表示副本的数量，伪分布式要设置为1 •.dir表示本地磁盘目录，是存储fsimage文件的地方 •dfs.datanode.data.dir表示本地磁盘目录，HDFS数据存放block的地方
mapred-site.xml <configuration>
伪分布式模式 • Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件
分布式模式 • 多个节点构成集群环境来运行Hadoop
Hadoop的安装
Hadoop基本安装配置主要包括以下几个步骤：
第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x则增加了NameNode HA等新的重大特性
第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop 1.0，是一套全新的架构，均包含HDFS Federation和YARN两个系统，相比于0.23.x，2.x 增加了NameNode HA和Wire-compatibility两个重大特性
Pig是一个用于大数据分析的工具，包括了一个数据分析语言和其运行环境。Pig的特点是其结构设计支持真正的并行化处理，因此适合应用于大数据处理环境。
Ambari是一个用于安装、管理、监控hadoop集群的web界面工具。目前已支持包括MapReduce、HDFS、HBase在内的几乎所有hadoop组件的管理。
◦ 10年后，摩尔在IEEE国际电子组件大会上将他的语言修正为半导体芯片上集成的晶体管和电阻的数量将每两年增加1倍。

Hadoop基础知识培训 ppt课件

适合海量的，但是同时也是简单的操作，具备低延时的数据返回，比如说key-value的操作，是生产环境对外访问可行的方式
海量数据存储的驱使，具备动态扩展系统容量的需求
把信息化打造成为中国电信企业核心竞争力之一
ppt课件
企业信息化部 35
Hadoop常用组件——Hive简介
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的类sql查询功能，可以将类sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
ppt课件
企业信息化部 31
HBase 简介（续）
• 大：一个表可以有上亿行，上百万列
• 面向列：面向列(族)的存储和权限控制，列(族)独立检索
• 稀疏：对于为空的列，并不占用存储空间，因此，表可以设计的非常稀疏
• 多版本：每条记录中的数据可以有多个版本
• 无类型：存在HBase中的数据都是字符串，无其他类型
ppt课件
企业信息化部 16
3 HDFS 之漫画读写
把信息化打造成为中国电信企业核心竞争力之一
ppt课件
企业信息化部 17
3 HDFS 之漫画读写
把信息化打造成为中国电信企业核心竞争力之一
ppt课件
企业信息化部 18
4 HDFS 之漫画容错
把信息化打造成为中国电信企业核心竞争力之一
ppt课件
企业信息化部 19
把信息化打造成为中国电信企业核心竞争力之一
ppt课件
企业信息化部 33
2 HBase 体系结构

Hadoop大数据开发基础教案-MapReduce入门编程教案

一、MapReduce简介1.1 课程目标理解MapReduce的概念和原理掌握MapReduce编程模型了解MapReduce在Hadoop中的作用1.2 教学内容MapReduce定义MapReduce编程模型（Map、Shuffle、Reduce阶段）MapReduce的优势和局限性Hadoop中的MapReduce运行机制1.3 教学方法理论讲解实例演示学生实操1.4 教学资源PPT课件Hadoop环境MapReduce实例代码1.5 课后作业分析一个大数据问题，尝试设计一个简单的MapReduce解决方案二、Hadoop环境搭建与配置2.1 课程目标学会在本地环境搭建Hadoop掌握Hadoop配置文件的基本配置理解Hadoop文件系统（HDFS）的存储机制2.2 教学内容Hadoop架构简介Hadoop环境搭建步骤Hadoop配置文件介绍（如：core-site.xml、hdfs-site.xml、mapred-site.xml）HDFS命令行操作2.3 教学方法讲解与实操相结合学生分组讨论问答互动2.4 教学资源PPT课件Hadoop安装包Hadoop配置文件模板HDFS命令行操作指南2.5 课后作业搭建本地Hadoop环境，并配置Hadoop文件系统三、MapReduce编程基础3.1 课程目标掌握MapReduce编程的基本概念理解MapReduce的运行原理3.2 教学内容MapReduce编程入口（Java）MapReduce关键组件（Job, Configuration, Reporter等）MapReduce编程实践（WordCount案例）MapReduce运行流程解析3.3 教学方法理论讲解与实操演示代码解析学生实践与讨论3.4 教学资源PPT课件MapReduce编程教程WordCount案例代码编程环境（Eclipse/IntelliJ IDEA）3.5 课后作业完成WordCount案例的编写与运行分析MapReduce运行过程中的各个阶段四、MapReduce高级特性4.1 课程目标掌握MapReduce的高级特性了解MapReduce在复杂数据处理中的应用4.2 教学内容MapReduce高级数据处理（如：排序、分组合并等）MapReduce性能优化策略（如：数据分区、序列化等）复杂场景下的MapReduce应用（如：多层嵌套、自定义分区等）4.3 教学方法理论讲解与实操演示代码解析与优化学生实践与讨论4.4 教学资源PPT课件MapReduce高级特性教程性能优化案例代码编程环境（Eclipse/IntelliJ IDEA）4.5 课后作业优化WordCount程序的性能分析复杂场景下的MapReduce应用案例5.1 课程目标了解MapReduce在大数据处理领域的应用趋势掌握进一步学习MapReduce的途径5.2 教学内容MapReduce编程要点回顾MapReduce在实际项目中的应用案例大数据处理领域的新技术与发展趋势（如：Spark、Flink等）5.3 教学方法知识点梳理与讲解案例分享学生提问与讨论5.4 教学资源PPT课件实际项目案例相关技术资料5.5 课后作业结合实际项目，分析MapReduce的应用场景六、MapReduce编程实战（一）6.1 课程目标掌握MapReduce编程的实战技巧学会分析并解决实际问题理解MapReduce在不同场景下的应用6.2 教学内容实战案例介绍：倒排索引构建MapReduce编程实战：倒排索引的MapReduce实现案例分析：倒排索引在搜索引擎中的应用6.3 教学方法实操演示与讲解学生跟随实操案例分析与讨论6.4 教学资源PPT课件实战案例代码搜索引擎原理资料6.5 课后作业完成倒排索引的MapReduce实现分析MapReduce在搜索引擎中的应用七、MapReduce编程实战（二）7.1 课程目标进一步掌握MapReduce编程的实战技巧学会分析并解决复杂问题了解MapReduce在不同行业的应用7.2 教学内容实战案例介绍：网页爬虫数据处理MapReduce编程实战：网页爬虫数据的抓取与解析案例分析：MapReduce在网络爬虫领域的应用7.3 教学方法实操演示与讲解学生跟随实操案例分析与讨论7.4 教学资源PPT课件实战案例代码网络爬虫原理资料7.5 课后作业完成网页爬虫数据的MapReduce实现分析MapReduce在网络爬虫领域的应用八、MapReduce性能优化8.1 课程目标掌握MapReduce性能优化的方法与技巧学会分析并提升MapReduce程序的性能理解MapReduce性能优化的意义8.2 教学内容性能优化概述：MapReduce性能瓶颈分析优化方法与技巧：数据划分、序列化、并行度等性能优化案例：WordCount的性能提升8.3 教学方法理论讲解与实操演示代码解析与优化学生实践与讨论8.4 教学资源PPT课件性能优化教程性能优化案例代码编程环境（Eclipse/IntelliJ IDEA）8.5 课后作业分析并优化WordCount程序的性能研究其他MapReduce性能优化案例九、MapReduce在大数据处理中的应用9.1 课程目标理解MapReduce在大数据处理中的应用场景学会分析并解决实际问题掌握MapReduce与其他大数据处理技术的比较9.2 教学内容大数据处理场景：日志分析、分布式文件处理等MapReduce应用案例：日志数据分析MapReduce与其他大数据处理技术的比较9.3 教学方法理论讲解与实操演示案例分析与讨论学生提问与互动9.4 教学资源PPT课件大数据处理案例资料MapReduce与其他技术比较资料9.5 课后作业分析MapReduce在日志数据分析中的应用研究MapReduce与其他大数据处理技术的优缺点10.1 课程目标了解MapReduce技术的发展趋势掌握进一步学习MapReduce的途径10.2 教学内容MapReduce编程要点回顾MapReduce技术的发展趋势：YARN、Spark等拓展学习资源与推荐10.3 教学方法知识点梳理与讲解技术发展趋势分享学生提问与讨论10.4 教学资源PPT课件技术发展趋势资料拓展学习资源列表10.5 课后作业制定个人拓展学习计划重点和难点解析：一、MapReduce简介理解MapReduce的概念和原理掌握MapReduce编程模型了解MapReduce在Hadoop中的作用二、Hadoop环境搭建与配置学会在本地环境搭建Hadoop掌握Hadoop配置文件的基本配置理解Hadoop文件系统（HDFS）的存储机制三、MapReduce编程基础掌握MapReduce编程的基本概念学会编写MapReduce应用程序理解MapReduce的运行原理四、MapReduce高级特性掌握MapReduce的高级特性学会优化MapReduce程序性能了解MapReduce在复杂数据处理中的应用六、MapReduce编程实战（一）掌握MapReduce编程的实战技巧学会分析并解决实际问题理解MapReduce在不同场景下的应用七、MapReduce编程实战（二）进一步掌握MapReduce编程的实战技巧学会分析并解决复杂问题了解MapReduce在不同行业的应用八、MapReduce性能优化掌握MapReduce性能优化的方法与技巧学会分析并提升MapReduce程序的性能理解MapReduce性能优化的意义九、MapReduce在大数据处理中的应用理解MapReduce在大数据处理中的应用场景学会分析并解决实际问题掌握MapReduce与其他大数据处理技术的比较了解MapReduce技术的发展趋势掌握进一步学习MapReduce的途径本教案主要涵盖了MapReduce编程的基础知识、Hadoop环境搭建、编程实战、高级特性、性能优化以及应用场景等内容。

hadoop教学大纲

hadoop教学大纲Hadoop教学大纲Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和分析。

它提供了一种可靠性和可扩展性的解决方案，使得处理海量数据变得更加容易和高效。

在当今数据驱动的世界中，了解和掌握Hadoop技术已经成为许多IT专业人士的必备技能。

因此，设计一份全面而有深度的Hadoop教学大纲至关重要。

第一部分：Hadoop基础在这一部分，我们将介绍Hadoop的基本概念和架构。

我们将深入了解Hadoop的核心组件，包括Hadoop分布式文件系统（HDFS）和Hadoop分布式计算框架（MapReduce）。

我们将学习如何安装和配置Hadoop集群，并了解Hadoop的工作原理和数据处理流程。

第二部分：Hadoop生态系统Hadoop作为一个生态系统，还包括许多与之相关的工具和技术。

在这一部分，我们将介绍一些常用的Hadoop生态系统组件，如Hive、Pig、HBase和Sqoop 等。

我们将学习如何使用这些工具来进行数据存储、数据处理和数据分析。

此外，我们还将介绍一些其他与Hadoop集成的技术，如Apache Spark和Apache Kafka等。

第三部分：Hadoop应用开发在这一部分，我们将学习如何使用Hadoop进行应用开发。

我们将介绍Hadoop的编程模型和API，如Hadoop Streaming、Hadoop Pipes和Hadoop Java API等。

我们将学习如何编写MapReduce程序来处理大规模数据，并了解如何优化和调试这些程序。

此外，我们还将介绍一些Hadoop应用开发的最佳实践和常见问题的解决方案。

第四部分：Hadoop集群管理和性能调优在这一部分，我们将学习如何管理和维护Hadoop集群，并进行性能调优。

我们将介绍一些常用的Hadoop集群管理工具，如Apache Ambari和Cloudera Manager等。

我们将学习如何监控和调整Hadoop集群的性能，并了解如何解决常见的性能问题。

hadoop大数据培训零基础学习hadoop-北京尚学堂

北京尚学堂提供问题导读：1.hadoop编程需要哪些基础？2.hadoop编程需要注意哪些问题？3.如何创建mapreduce程序及其包含几部分？4.如何远程连接eclipse，可能会遇到什么问题？5.如何编译hadoop源码？阅读此篇文章，需要些基础下面两篇文章尚学堂_肖斌_hadoop经典视频教程/2015/down_0526/41.html尚学堂云计算极限班-云计算培训/html/cloud/如果看过的话，看这篇不成问题，此篇讲hadoop编程篇。

hadoop编程，hadoop是一个Java框架，同时也是编程的一次革命，使得传统开发运行程序由单台客户端（单台电脑）转换为可以由多个客户端运行（多台机器）运行，使得任务得以分解，这大大提高了效率。

hadoop既然是一个Java框架，因为我们必须要懂Java，网上有大量的资料，所以学习Java不是件难事。

但是学到什么程度，可能是我们零基础同学所关心的。

语言很多情况下都是相通的，如果你是学生，还处于打基础的阶段，那么难度对于你来说还是不小的。

1.初学者要求必须有理论基础，并且能够完成一个小项目，最起码能够完成几个小例子，例如图书馆里等。

初学者基本的要求：（1）懂什么是对象、接口、继续、多态（2）必须熟悉Java语法（3）掌握一定的常用包（4）会使用maven下载代码（5）会使用eclipse，包括里面的快捷键，如何打开项目传统程序员，因为具有丰富的编程经验，因此只要能够掌握开发工具：（1）会使用maven下载代码（2）会使用eclipse，包括里面的快捷键，如何打开项目（3）简单熟悉Java语法上面的只是基础，如果想开发hadoop，还需要懂得下面内容（1）会编译hadoop（2）会使用hadoop-eclipse-plugin插件，远程连接集群（3）会运行hadoop程序。

上面列出大概的内容，下面我们具体说一些需要学习的内容。

无论是传统开发人员还是学生，零基础下面都是需要掌握的：我们就需要进入开发了。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

MapReduce：是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。
官网文档：/docs/r1.0.4/cn/hdfs_user_guide.html
大型HDFS实例一般运行在跨越多个机架的计算机组成的集群上，不同机架上的两台机器之间的通讯需要经过交换机。在大多数情况下，同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。
通过一个机架感知的过程，Namenode可以确定每个Datanode所属的机架id。一个简单但没有优化的策略就是将副本存放在不同的机架上。这样可以有效防止当整个机架失效时数据的丢失，并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀分布在集群中，有利于当组件失效情况下的负载均衡。但是，因为这种策略的一个写操作需要传输数据块到多个机架，这增加了写的代价。
HDFS文件系统
文件系统的名字空间 (namespace)
HDFS支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。当前，HDFS不支持用户磁盘配额和访问权限控制，也不支持硬链接和软链接。但是HDFS架构并不妨碍实现这些特性。
HDFS文件系统
Rebalancer
HDFS的数据也许并不是非常均匀的分布在各个DataNode中。一个常见的原因是在现有的集群上经常会增添新的DataNode节点。当新增一个数据块（一个文件的数据被保存在一系列的块中）时，NameNode在选择 DataNode接收这个数据块之前，会考虑到很多因素。其中的一些考虑的是：
Hadoop基础
主讲人：张 XX 日期： 2020-08-10
第一章
Hadoop是什么
Hadoop什么
Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。
HDFS：是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。
集群中单一Namenode的结构大大简化了系统的架构。Namenode是所有HDFS元数据的仲裁者和管理者，这样，
HDFS文件系统
Secondary NameNode
NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件（edits）。当一个NameNode启动时，它首先从一个映像文件（fsimage）中读取HDFS的状态，接着应用日志文件中的edits操作。然后它将新的HDFS状态写入（fsimage）中，并使用一个空的edits文件开始正常操作。因为 NameNode只有在启动阶段才合并fsimage和edits，所以久而久之日志文件可能会变得非常庞大，特别是对大型的集群。日志文件太大的另一个副作用是下一次NameNode启动会花很长时间。
Namenode负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode记录下来。应用程序可以设置HDFS保存的文件的副本数目。文件副本的数目称为文件的副本系数，这个信息也是由 Namenode保存的。
HDFS文件系统
数据复制
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，除了最后一个，所有的数据块都是同样大小的。为了容错，文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。HDFS 中的文件都是一次性写入的，并且严格要求在任何时候只能有一个写入者。
Secondary NameNode定期合并fsimage和edits日志，将edits日志文件大小控制在一个限度下。因为内存需求和NameNode在一个数量级上，所以通常 secondary NameNode和NameNode运行在不同的机器上。Secondary NameNode通过bin/start-dfs.sh在conf/masters中指定的节点上启动。
一句话总结：Hadoop就是存储海量数据和分析海量数据的工具
Hadoop什么
Hadoop 优缺点优点：
1、支持超大文件。HDFS存储的文件可以支持TB和PB级别的数据。 2、检测和快速应对硬件故障。数据备份机制，NameNode通过心跳机制来检测DataNode是否还存在。 3、高扩展性。可建构在廉价机上，实现线性（横向）扩展，当集群增加新节点之后，NameNode也可以感知，将数据分发和备份到相应的节点上。 4、成熟的生态圈。借助开源的力量，围绕Hadoop衍生的一些小工具。
1. 将数据块的一个副本放在正在写这个数据块的节点上。 2. 尽量将数据块的不同副本分布在不同的机架上，这样集群可在完全失去某一机架的情况下还能存活。 3. 一个副本通常被放置在和写文件的节点同一机架的某个节点上，这样可以减少跨越机架的网络I/O。 4. 尽量均匀地将HDFS数据分布在集群的DataNode中。
副本选择为了降低整体的带宽消耗和读取延时，HDFS会尽量让读取程序读取离它最近的副本。如果在读取程序的同一个机架上有一个副本，那么就读取该副本。如果一个 HDFS集群跨越多个数据中心，那么客户端也将首先读本地数据中心的副本。
安全模式 Namenode启动后会进入一个称为安全模式的特殊状态。处于安全模式的Namenode是不会进行数据块的复制的。Namenode从所有的 Datanode接收心跳信号和块状态报告。块状态报告包括了某个Datanode所有的数据块列表。每个数据块都有一个指定的最小副本数。当Namenode检测确认某个数据块的副本数目达到这个最小值，那么该数据块就会被认为是副本安全(safely replicated)的；在一定百分比（这个参数可配置）的数据块被Namenode检测确认是安全之后（加上一个额外的30秒等待时间），Namenode将退出安全模式状态。接下来它会确定还有哪些数据块的副本没有达到指定数目，并将这些数据块复制到其他Datanode上。
在大多数情况下，副本系数是3，HDFS的存放策略是将一个副本存放在本地机架的节点上，一个副本放在同一机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，这就提高了写操作的效率。机架的错远远比节点的错误少，所以这个策略不会影响到数据的可靠性和可用性。于此同时，因为数据块只放在两个（不是三个）不同的机架上，所以此策略减少了读取数据时需要的网络传输总带宽。在这种策略下，副本并不是均匀分布在不同的机架上。三分之一的副本在一个节点上，三分之二的副本在一个机架上，其他副本均匀分布在剩下的机架中，这一策略在不损害数据可靠性和读取性能的情况下改进了写的性能。
Secondary NameNode的检查点进程启动，是由两个配置参数控制的：
fs.checkpoint.period，指定连续两次检查点的最大时间间隔，默认值是1小时。 fs.checkpoint.size 定义了edits日志文件的最大值，一旦超过这个值会导致强制执行检查点（即使没到检查点的最大时间间隔）。默认值是64MB。 Secondary NameNode保存最新检查点的目录与NameNode的目录结构相同。所以NameNode可以在需要的时候读取Secondary NameNode上的检查点镜像。
缺点：
1、不能做到低延迟。高数据吞吐量做了优化，牺牲了获取数据的延迟。 2、不适合大量的小文件存储。 3、文件修改效率低。HDFS适合一次写入，多次读取的场景。
第二章
HDFS
HDFS文件系统
HDFS是Master和Slave的主从结构。主要由Name-Node、Secondary NameNode、DataNode构成
由于上述多种考虑需要取舍，数据可能并不会均匀分布在DataNode中。 HDFS为管理员提供了一个工具：Rebalance，用于分析数据块分布和重新平衡DataNode上的数据分布
HDFS文件系统
安全模式 NameNode启动时会从fsimage和edits日志文件中装载文件系统的状态信息，接着它等待各个DataNode向它报告它们各自的数据块状态，这样，NameNode就不会过早地开始复制数据块，即使在副本充足的情况下。这个阶段，NameNode处于安全模式下。 NameNode的安全模式本质上是HDFS集群的一种只读模式，此时集群不允许任何对文件系统或者数据块修改的操作。通常 NameNode会在开始阶段自动地退出安全模式。如果需要，你也可以通过'bin/hadoop dfsadmin -safemode'命令显式地将HDFS置于安全模式。NameNode首页会显示当前是否处于安全模式。关于安全模式的更多介绍和配置信息请参考JavaDoc：setSafeMode()。
Namenode和Datanode被设计成可以在普通的商用机器上运行。这些机器一般运行着GNU/Linux操作系统(OS)。 HDFS采用Java语言开发，因此任何支持Java的机器都可以部署Namenode或Datanode。由于采用了可移植性极强的Java语言，使得HDFS可以部署到多种类型的机器上。一个典型的部署场景是一台机器上只运行一个Namenode 实例，而集群中的其它机器分别运行一个Datanode实例。这种架构并不排斥在一台机器上运行多个Datanode，只不过这样的情况比较少见。
Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该 Datanode上所有数据块的列表。