hadoop启动模式、基本配置、启动方式

合集下载

Hadoop集群配置详细

Linux系统配置
7安装JDK 将JDK文件解压，放到/usr/java目录下 cd /home/dhx/software/jdk mkdir /usr/java mv jdk1.6.0_45.zip /usr/java/
cd /usr/java
unzip jdk1.6.0_45.zip
从当前用户切换root用户的命令如下：编辑主机名列表的命令
从当前用户切换root用户的命令如下：
Linux系统配置
操作步骤需要在HadoopMaster和HadoopSlave节点
上分别完整操作，都是用root用户。从当前用户切换root用户的命令如下：
su root
从当前用户切换root用户的命令如下：
Linux系统配置
1拷贝软件包和数据包 mv ~/Desktop/software ~/
环境变量文件中，只需要配置JDK的路径
gedit conf/hadoop-env.sh
从当前用户切换root用户的命令如下：编辑主机名列表的命令
Hadoop配置部署
3配置核心组件core-site.xml
gedit conf/core-site.xml
<configuration> <property> <name></name> /*2.0后用 fs.defaultFS代替*/ <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/dhx/hadoopdata</value> </property> </configuration>

《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码：1041139083课程名称（中/英文）：Hadoop大数据技术/Hadoop Big Data Technology课程类别：专业必修课学分：3.5总学时：56理论学时：32实验/实践学时：24适用专业：数据科学与大数据技术适用对象：本科先修课程：JA V A程序设计、Linux基础教学环境：课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。

《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。

通过学习Hadoop 平台框架，学会手动搭建Hadoop环境，掌握Hadoop平台上存储及计算的原理、结构、工作流程，掌握基础的MapReduce编程，掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程，并具备大数据的动手及问题分析能力，使用掌握的知识应用到实际的项目实践中。

课程由理论及实践两部分组成，课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主，对Hadoop 平台组件的作用及其工作原理有比较深入的了解；课程同时为各组件设计有若干实验，使学生在学习理论知识的同时，提高实践动手能力，做到在Hadoop的大数据平台上进行大数据项目开发。

三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容（一）初识Hadoop大数据技术1.主要内容：掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。

了解对于大数据问题，传统方法、Google的解决方案、Hadoop框架下的解决方案，重点了解Google的三篇论文。

掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择；了解Hadoop典型应用场景；了解本课程内容涉及到的Java语言基础；了解本课程实验涉及到的Linux基础。

Hadoop集群的三种方式

Hadoop集群的三种⽅式1,Local(Standalone) Mode 单机模式$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'$ cat output/*解析$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'input 夹下⾯的⽂件：capacity-scheduler.xml core-site.xml hadoop-policy.xml hdfs-site.xml httpfs-site.xml yarn-site.xml bin/hadoop hadoop 命令jar 这个命令在jar包⾥⾯share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar 具体位置grep grep 函数input grep 函数的⽬标⽂件夹output grep 函数结果的输出⽂件夹'dfs[a-z.]+' grep 函数的匹配正则条件直译：将input⽂件下⾯的⽂件中包含 'dfs[a-z.]+' 的字符串给输出到output ⽂件夹中输出结果：part-r-00000 _SUCCESScat part-r-00000：1 dfsadmin在hadoop-policy.xml 存在此字符串2,Pseudo-Distributed Operation 伪分布式在 etc/hadoop/core.site.xml 添加以下属性<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value> 是主机名，已经和ip相互映射</property>还需要覆盖默认的设定,mkdir -p data/tmp<property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.5.0/data/tmp</value> 是主机名，已经和ip相互映射</property>垃圾箱设置删除⽂件保留时间（分钟）<property><name>fs.trash.interval</name><value>10080</value></property></configuration>etc/hadoop/hdfs-site.xml: 伪分布式1个备份<configuration><property><name>dfs.replication</name><value>1</value></property>配置从节点<property><name>node.secondary.http-address</name><value>主机名:50090</value></property></configuration>格式化元数据，进⼊到安装⽬录下bin/hdfs namenode -format启动namenode,所有的命令都在sbin下，通过ls sbin/ 可以查看sbin/hadoop-daemon.sh start namenode hadoop 的守护线程启动(主数据)sbin/hadoop-daemon.sh start datanode 启动datanode（从数据）nameNode都有个web⽹页,端⼝50070创建hdfs ⽂件夹，创建在⽤户名下⾯bin/hdfs dfs -mkdir -p /user/chris查看⽂件夹bin/hdfs dfs -ls -R / 回调查询本地新建⽂件夹mkdir wcinput mkdir wcoutput vi wc.input创建wc.input⽂件，并写⼊内容hdfs⽂件系统新建⽂件夹bin/hdfs dfs -mkdir -p /user/chris/mapreduce/wordcount/input本地⽂件上传hdfs⽂件系统bin/hdfs dfs -put wcinput/wc.input /user/chris/mapreduce/wordcount/input/在hdfs⽂件系统上使⽤mapreduce$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output红⾊代表：读取路径蓝⾊代表：输出路径所以mapreduce的结果已经写到了hdfs的输出⽂件⾥⾯去了Yarn on a Single Node/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml 在hadoop的安装路径下<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>yarn 的配置已经完成在同⼀⽬录下slave⽂件上添加主机名或者主机ip,默认是localhostyarn-env.sh 和 mapred-env.sh把JAVA_HOME 更改下，防⽌出错export JAVA_HOME=/home/chris/software/jdk1.8.0_201将mapred-site.xml.template 重命名为mapred-site.xml,同时添加以下配置<configuration><property><name></name><value>yarn</name></property></configuration>先将/user/chris/mapreduce/wordcount/output/删除再次执⾏$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jarwordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output伪分布式执⾏完毕，mapreduce 执⾏在了yarn 上3，完全分布式基于伪分布式，配置好⼀台机器后，分发⾄其它机器step1: 配置ip 和 hostname 映射vi /etc/hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03同时在window以下路径也得设置C:\Windows\System32\drivers\etc\hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03具体可参考linux ip hostname 映射step2:部署（假设三台机器）不同机器配置不同的节点部署：hella-hadoop hella-hadoop02 hella-hadoop03HDFS:NameNodeDataNode DataNode DataNodeSecondaryNameNodeYARN:ResourceManagerNodeManager NodeManager NodeManager MapReduce:JobHistoryServer配置：* hdfshadoop-env.shcore.site.xmlhdfs-site.xmlslaves*yarnyarn-env.shyarn-site.xmlslaves*mapreducemapred-env.shmapred-site.xmlstep3:修改配置⽂件core.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value></property><property><name>hadoop.tmp.dir</name><value>/opt/app/hadoop-2.5.0/data/tmp</value></property><property><name>fs.trash.interval</name><value>10080</value></property></configuration>hdfs-site.xml<configuration><property><name>node.secondary.http-address</name><value>:50090</value></property></configuration>slavesyarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>4</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation-retain-seconds</name><value>640800</value></property></configuration>mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>:19888</value></property></configurationstep4:集群的配置路径在各个机器上要⼀样，⽤户名⼀样step5: 分发hadoop 安装包⾄各个机器节点scp -p 源节点⽬标节点使⽤scp 命令需要配置ssh ⽆密钥登陆，博⽂如下：step6:启动并且test mapreduce可能会有问题No route to Host 的Error，查看hostname 以及 ip 配置，或者是防⽕墙有没有关闭防⽕墙关闭，打开，状态查询，请参考以下博⽂：4，完全分布式+ HAHA全称：HDFS High Availability Using the Quorum Journal Manager 即 HDFS⾼可⽤性通过配置分布式⽇志管理HDFS集群中存在单点故障（SPOF）,对于只有⼀个NameNode 的集群，若是NameNode 出现故障，则整个集群⽆法使⽤，知道NameNode 重新启动。

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。

6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。

一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。

8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。

9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。

文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。

10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。

11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。

大数据开发基础(试卷编号1412)

大数据开发基础(试卷编号1412)说明：答案和解析在试卷最后1.[单选题]下列选项中，哪一个可以对Hadoop集群进行格式化（）A)hadoop namenode -formatB)hadoop namenode -lsC)hdfs datanode -lsD)hdfs datanode -format2.[单选题]以下对信息描述不正确的是( )。

A)信息与能源、材料属于同一层次的概念B)信息是客观的存在C)信息是人类社会赖以生存和发展的三大资源之一D)信息是对数据进行计量形成的记录3.[单选题]在 IBMPASS 中，聚类算法分为分层聚类、Kohonennetwork、K 均值聚类和（）四种。

A)系统聚类B)两步聚类C)模型聚类D)其他聚类4.[单选题]大数据的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可视)D)Variety(多样)5.[单选题]输入图片大小为100×100×3，依次经过一层卷积（kernel size 5×5，padding same，stride 2），pooling（kernel size 3×3，padding same，stride 2），又一层卷积（kernel size 3×3，padding valid，stride 1）之后，输出特征图大小为：( )A)25×25B)50×50C)48×48D)23×236.[单选题]IBM在3V的基础上又归纳总结了第4个V是指C)巨量D)极速7.[单选题]在Zookeeper中，路径由( )字符串构成。

A)UnicodeB)UTF-8C)GBKD)ASCII8.[单选题]关于 Spark 的说法中，( )是错误的。

A)采用内存计算模式B)可利用多种语言编程C)主要用于批处理D)可进行map（）操作9.[单选题]Spark诞生于哪所学院A)加州大学芝加哥分校B)哈佛大学加州分校C)加州大学伯克利分校D)斯坦福大学圣地亚哥分校10.[单选题]在概率图模型中，（__）模型是结构最简单的动态贝叶斯网，主要用于时序数据建模。

林子雨大数据技术原理与应用第二章课后题答案

大数据第二章课后题答案黎狸1. 试述Hadoop 和谷歌的MapReduce 、GFS 等技术之间的关系。

Hadoop 是Apache 软件基金会旗下的一-个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。

①Hadoop 的核心是分布式文件系统( Hadoop Ditributed FileSystem,HDFS ) 和MapReduce 。

②HDFS是对谷歌文件系统( Google File System, GFS ) 的开源实现，是面向普通硬件环境的分布式文件系统，具有较高的读写速度、很好的容错性和可伸缩性，支持大规模数据的分布式存储，其冗余数据存储的方式很好地保证了数据的安全性。

③MapReduce 是针对谷歌MapReduce 的开源实现，允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据，可保证分析和处理数据的高效性。

2. 试述Hadoop 具有哪些特性。

Hadoop 是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性。

①高可靠性。

采用冗余数据存储方式，即使一个副本发生故障，其他副本也可以保证正常对外提供服务。

②高效性。

作为并行分布式计算平台，Hadoop 采用分布式存储和分布式处理两大核心技术，能够高效地处理PB 级数据。

③高可扩展性。

Hadoop 的设计目标是可以高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点。

④高容错性。

采用冗余数据存储方式，自动保存数据的多个副本，并且能够自动将失败的任务进行重新分配。

⑤成本低。

Hadoop 采用廉价的计算机集群，成本比较低，普通用户也很容易用自己的PC 搭建Hadoop 运行环境。

⑥运行在Linux 平台上。

Hadoop 是基于Java 语言开发的，可以较好地运行在Linux 平台上。

大数据_hadoop_分布式文件系统

2.HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目，是Hadoop主要应用的一个分布式文件系统。注：HDFS只是Hadoop抽象文件系统的一个实例，还包括本地文件系统、HFTP、S3等。
一、Hadoop文件系统
1.Hadoop文件系统
二、HDFS简介
1.HDFS
HDFS是基于流数据模式访问和处理超大文件的需求而开发的，它可以运行于廉价的商用服务器上。
2.HDFS的主要特点：
（1）处理超大文件实际应用中，HDFS已经用来存储PB级的数据了。（2）流式的访问数据运行在HDFS上的应用程序必须流式地访问他们的数据集。 HDFS的设计适合批量处理，而不是用户交互式的。重点是数据吞吐量（通常分析任务都会涉及数据集的大部分数据不适合低延迟数据访问
HDFS是为了处理大型数据集分析任务，主要是为了达到高的数据吞吐量而设计的，这就要求可能以高延迟为代价。注：对于低延迟的访问需求，HBase是更好地选择。
（2）无法高效存储大量小文件 Hadoop中由namenode负责将文件系统中的元数据存储在内存中，因此文件系统存储的文件总数受限于namenode的内存容量。当存储大量的小文件时，会大大增加namenode的工作压力，检索处理元数据所需的时间就会很长。
四、HDFS的基本操作
1.HDFS命令行操作
可以通过命令行接口和HDFS进行交互。
（1）下面以单机上运行Hadoop、执行单机伪分布为例：
在单机伪分布中需要修改两个配置属性： ① 修改属性：令 =hdfs://localhost/ 注：hadoop默认使用HDFS文件系统；在本机localhost运行 HDFS，其端口默认采用8020.

简述启动和关闭hadoop集群的方式以及使用的相关指令。

Hadoop是一个开源的分布式数据处理框架，通常用于存储和处理大规模的数据集。

启动和关闭Hadoop集群是使用Hadoop框架的关键步骤。

本文将一步一步回答如何启动和关闭Hadoop集群，以及使用的相关指令。

一、Hadoop集群启动方式Hadoop集群可以通过两种方式进行启动：单节点启动和多节点启动。

1. 单节点启动单节点启动适用于在本地主机运行Hadoop的开发和测试环境。

在单节点启动方式下，所有Hadoop的组件都运行在一台主机上。

以下是单节点启动Hadoop集群的步骤：1. 安装Java开发环境在启动Hadoop之前，首先需要在机器上安装Java开发环境。

Hadoop依赖于Java来运行。

可以从Oracle官方网站下载并安装Java Development Kit(JDK)。

2. 配置Hadoop环境下载Hadoop的最新版本，并解压到本地目录。

接下来，需要配置Hadoop的环境变量。

打开Hadoop的安装目录，在conf目录下找到hadoop-env.sh文件。

通过编辑这个文件，设置正确的JAVA_HOME 路径。

3. 配置Hadoop集群在启动单节点Hadoop集群之前，需要配置Hadoop集群的相关参数。

打开conf目录下的core-site.xml和hdfs-site.xml文件，分别进行配置。

主要包括配置Hadoop文件系统的URL，配置Hadoop的本地文件夹路径，以及配置Hadoop的端口号等。

4. 格式化Hadoop文件系统在单节点模式下，需要手动初始化Hadoop文件系统。

在Hadoop 的安装目录下，使用命令`bin/hdfs namenode -format` 来格式化文件系统。

5. 启动Hadoop集群在Hadoop的安装目录下，使用命令`sbin/start-all.sh`来启动Hadoop集群。

这个命令会启动Hadoop的所有组件，包括NameNode，DataNode，SecondaryNameNode，以及JobTracker 等。

Hadoop集群的搭建方法与步骤

Hadoop集群的搭建方法与步骤随着大数据时代的到来，Hadoop作为一种分布式计算框架，被广泛应用于数据处理和分析领域。

搭建一个高效稳定的Hadoop集群对于数据科学家和工程师来说至关重要。

本文将介绍Hadoop集群的搭建方法与步骤。

一、硬件准备在搭建Hadoop集群之前，首先要准备好适合的硬件设备。

Hadoop集群通常需要至少三台服务器，一台用于NameNode，两台用于DataNode。

每台服务器的配置应该具备足够的内存和存储空间，以及稳定的网络连接。

二、操作系统安装在选择操作系统时，通常推荐使用Linux发行版，如Ubuntu、CentOS等。

这些操作系统具有良好的稳定性和兼容性，并且有大量的Hadoop安装和配置文档可供参考。

安装操作系统后，确保所有服务器上的软件包都是最新的。

三、Java环境配置Hadoop是基于Java开发的，因此在搭建Hadoop集群之前，需要在所有服务器上配置Java环境。

下载最新版本的Java Development Kit（JDK），并按照官方文档的指引进行安装和配置。

确保JAVA_HOME环境变量已正确设置，并且可以在所有服务器上运行Java命令。

四、Hadoop安装与配置1. 下载Hadoop从Hadoop官方网站上下载最新的稳定版本，并将其解压到一个合适的目录下，例如/opt/hadoop。

2. 编辑配置文件进入Hadoop的安装目录，编辑conf目录下的hadoop-env.sh文件，设置JAVA_HOME环境变量为Java的安装路径。

然后，编辑core-site.xml文件，配置Hadoop的核心参数，如文件系统的默认URI和临时目录。

接下来，编辑hdfs-site.xml文件，配置Hadoop分布式文件系统（HDFS）的相关参数，如副本数量和数据块大小。

最后，编辑mapred-site.xml文件，配置MapReduce框架的相关参数，如任务调度器和本地任务运行模式。

《大数据技术原理与操作应用》第2章习题答案

第2章课后习题答案一、单选题1.下列选项中,哪个配置文件可以配置 HDFS 地址、端口号以及临时文件目录( ) 。

A. core-site. xmlB. hdfs-site. xmlC. mapred-site. xmlD. yarn-site. xml参考答案：A2.Hadoop 集群启动成功后,用于监控 HDFS 集群的端口是(A. 50010B. 50075C. 8485D. 50070参考答案：D3.下列选项中,可以进行重启引导系统的是( ) 。

A. OKB. CancelC. RebootD. Apply参考答案：C4.下列选项中,关于 SSH 服务说法正确的是( ) 。

A. SSH 服务是一种传输协议B. SSH 服务是一种通信协议C. SSH 服务是一种数据包协议D. SSH 服务是一种网络安全协议参考答案：D5.下列选项中,一键启动 HDFS 集群的命令是( ) 。

A. start-namenode. shB. start-datanode. shC. start-dfs. shD. start-slave. sh参考答案：C6.在 Hadoop 的解压目录下,可以查看 Hadoop 的目录结构的命令是() 。

A. jpsB. llC. tarD. find参考答案：B7.下列选项中,存放 Hadoop 配置文件的目录是( ）A. includeB. binC. libexeD. etc参考答案：D8. 在配置 Linux 网络参数时,固定 IP 地址是将路由协议配置为( ) 。

A. staticB. dynamicC. immutableD. variable参考答案：A9.下列选项中,可以对 Hadoop 集群进行格式化的是(A. hadoop namenode -formatB. hadoop namenode -lsC. hdfs datanode -lsD. hdfs datanode -format参考答案：A10.下列选项中,查看 Linux 系统的 IP 配置的命令是( ) 。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Local (Standalone) ModeMapReduce程序运行在本地，启动jvm启动本地模式：1、配置hadoop-env.sh配置文件中的java_home路径2、在hadoop安装目录下：mkdir input3、在input目录下创建任意文件4、统计input文件夹下所有文件中的单词的数量：bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount input outputPseudo-Distributed Mode1、配置etc/hadoop/core-site.xml:##配置namenode所在主机<configuration><property><name>fs.defaultFS</name><value>hdfs://bxp:8020</value></property></configuration>##配置文件临时目录<configuration><property><name>hadoop.tmp.dir</name><value>/usr/lib/hadoop-2.5.0-cdh5.3.6/data/tmp</value></property></configuration>2、配置etc/hadoop/hdfs-site.xml:##配置文件备份数量<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>3、格式化文件系统bin/hdfsnamenode -format4、启动namenodesbin/hadoop-daemon.sh start namenode4、启动datanodesbin/hadoop-daemon.sh start datanode5、浏览器访问：http://bxp:50070，查看hdfs6、命令行创建hdfs文件目录：bin/hdfsdfs -mkdir -p/user/bxp/mapreduce/wordcount/input7、命令行查看hdfs文件系统目录结构：bin/hdfsdfs -ls -R /8、上传文件到hdfs文件系统：bin/hdfsdfs -put input/test/user/bxp/mapreduce/wordcount/input(下载的命令为get，查看为cat)9、运行bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/bxp/mapreduce/wordcount/input/user/bxp/mapreduce/wordcount/output10、查看运行结果：bin/hdfsdfs -cat /user/bxp/mapreduce/wordcount/output/part-r-00000 此时运行的结果和本地启动时运行的结果相同，不同的是输入的数据源一个是在本地，一个是在hdfs文件系统中。

当在etc/hadoop/core-site.xml中配置文件系统时，回去寻找文件系统，当没有进行配置，默认会去寻找本地文件系统（file:///）:YARN on Single Node1、在etc/hadoop/yarn-env.sh中配置JAVA_HOME2、配置etc/hadoop/yarn-site.xml:<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property></configuration>3、在etc/hadoop/slaves文件中配datanode和nodemamager所在主机的主机名或ip（默认datanode和nodemanager在同一台主机上）localhost4、启动yarnsbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanager5、浏览器查看yarn的监控界面：80886、接下来进行将mapreduce程序运行在yarn上的配置.7、配置etc/hadoop/mapred-env.sh中的JAVA_HOME8、重命名mapred-site.xml.template为mapred-site.xml并配置etc/hadoop/mapred-site.xml##将mapreduce运行在yarn上，默认值是local<configuration><property><name></name><value>yarn</value></property></configuration>9、运行bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/bxp/mapreduce/wordcount/input/user/bxp/mapreduce/wordcount/output10、查看运行结果：bin/hdfsdfs -cat /user/bxp/mapreduce/wordcount/output/part-r-00000 此时的运行结果不变，不同的是之前的mapreduce程序运行在本地，此时的mapreduce程序运行在yarn上Fully-Distributed Mode启动mapreduce历史服务器sbin/mr-jobhistory-daemon.sh start historyserver配置yarn日志的聚集聚集：应用运行完成以后，将日志信息上传到HDFS文件系统中在etc/hdoop/yarn-site.xml中增加属性###配置日志聚集<property><name>yarn.log-aggregation-enable</name><value>true</value></property>###配置日志在文件系统中存放的秒数（604800为7天）<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>配置完成后需要将resourcemanager和mapreduce历史任务进行重启才会生效sbin/yarn-daemon.sh stop resourcemanagersbin/yarn-daemon.sh stop nodemanagersbin/mr-jobhistory-daemon.sh stop historyserversbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanagersbin/mr-jobhistory-daemon.sh start historyserverHadoop配置文件∙默认配置文件,在share/hadoop四个模块相对应的jar包中core-default.xmlhdfs-default.xmlyarn-default.xmlmapred-default.xml∙自定义配置文件,在etc/hadoopcore-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml\每次启动程序的时候，系统会首先加载jar包，读取jar包中的默认配置，之后才会读取用户自定义配置，用户自定义配置会覆盖默认配置。

一般在配置的时候，会在官方文档和默认配置文件中查找配置信息，默认配置中会有对配置属性的描述。

配置HDFS垃圾回收时间（分钟）在core-site.xml配置文件中进行增加属性<property><name>fs.trash.interval</name><value>7*24*60</value></property>hadoop启动的三种方式∙各个服务组建逐个启动o hdfshadoop-daemon.shstart|stopnamenode|datanode|secondarynamenodeo yarnyarn-daemon.sh start|stopresourcemanager|nodemanager o mapreducemr-jobhistory-daemon.sh start|stophistoryserver∙各个模块分开启动o hdfsstart-dfs.shstop-dfs.sho yarnstart-yarn.shstop-yarn.sho mapreducemr-historyserver-daemon.sh start|stophistoryserver分模块启动，他的启动方式是：启动命令在主结点上运行，然后通过ssh协议去链接自己和相关将要启动的从结点，从而逐个启动。

使用ssh协议时每次都需要输入密码。

所以需要配置ssh无密钥登陆。

配置无密钥登陆：(客户端生成公钥和私钥，将公钥给将要链接的机器)1、客户端生成密钥。