hadoop启动模式、基本配置、启动方式
Hadoop集群配置详细

Linux系统配置
7安装JDK 将JDK文件解压,放到/usr/java目录下 cd /home/dhx/software/jdk mkdir /usr/java mv jdk1.6.0_45.zip /usr/java/
cd /usr/java
unzip jdk1.6.0_45.zip
从当前用户切换root用户的命令如下: 编辑主机名列表的命令
从当前用户切换root用户的命令如下:
Linux系统配置
操作步骤需要在HadoopMaster和HadoopSlave节点
上分别完整操作,都是用root用户。 从当前用户切换root用户的命令如下:
su root
从当前用户切换root用户的命令如下:
Linux系统配置
1拷贝软件包和数据包 mv ~/Desktop/software ~/
环境变量文件中,只需要配置JDK的路径
gedit conf/hadoop-env.sh
从当前用户切换root用户的命令如下: 编辑主机名列表的命令
Hadoop配置部署
3配置核心组件core-site.xml
gedit conf/core-site.xml
<configuration> <property> <name></name> /*2.0后用 fs.defaultFS代替*/ <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/dhx/hadoopdata</value> </property> </configuration>
《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码:1041139083课程名称(中/英文):Hadoop大数据技术/Hadoop Big Data Technology课程类别:专业必修课学分:3.5总学时:56理论学时:32实验/实践学时:24适用专业:数据科学与大数据技术适用对象:本科先修课程:JA V A程序设计、Linux基础教学环境:课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。
《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。
通过学习Hadoop 平台框架,学会手动搭建Hadoop环境,掌握Hadoop平台上存储及计算的原理、结构、工作流程,掌握基础的MapReduce编程,掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程,并具备大数据的动手及问题分析能力,使用掌握的知识应用到实际的项目实践中。
课程由理论及实践两部分组成,课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主,对Hadoop 平台组件的作用及其工作原理有比较深入的了解;课程同时为各组件设计有若干实验,使学生在学习理论知识的同时,提高实践动手能力,做到在Hadoop的大数据平台上进行大数据项目开发。
三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容(一)初识Hadoop大数据技术1.主要内容:掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。
了解对于大数据问题,传统方法、Google的解决方案、Hadoop框架下的解决方案,重点了解Google的三篇论文。
掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择;了解Hadoop典型应用场景;了解本课程内容涉及到的Java语言基础;了解本课程实验涉及到的Linux基础。
Hadoop集群的三种方式

Hadoop集群的三种⽅式1,Local(Standalone) Mode 单机模式$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'$ cat output/*解析$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'input 夹下⾯的⽂件:capacity-scheduler.xml core-site.xml hadoop-policy.xml hdfs-site.xml httpfs-site.xml yarn-site.xml bin/hadoop hadoop 命令jar 这个命令在jar包⾥⾯share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar 具体位置grep grep 函数input grep 函数的⽬标⽂件夹output grep 函数结果的输出⽂件夹'dfs[a-z.]+' grep 函数的匹配正则条件直译:将input⽂件下⾯的⽂件中包含 'dfs[a-z.]+' 的字符串给输出到output ⽂件夹中输出结果:part-r-00000 _SUCCESScat part-r-00000:1 dfsadmin在hadoop-policy.xml 存在此字符串2,Pseudo-Distributed Operation 伪分布式在 etc/hadoop/core.site.xml 添加以下属性<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value> 是主机名,已经和ip相互映射</property>还需要覆盖默认的设定,mkdir -p data/tmp<property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.5.0/data/tmp</value> 是主机名,已经和ip相互映射</property>垃圾箱设置删除⽂件保留时间(分钟)<property><name>fs.trash.interval</name><value>10080</value></property></configuration>etc/hadoop/hdfs-site.xml: 伪分布式1个备份<configuration><property><name>dfs.replication</name><value>1</value></property>配置从节点<property><name>node.secondary.http-address</name><value>主机名:50090</value></property></configuration>格式化元数据,进⼊到安装⽬录下bin/hdfs namenode -format启动namenode,所有的命令都在sbin下,通过ls sbin/ 可以查看sbin/hadoop-daemon.sh start namenode hadoop 的守护线程启动(主数据)sbin/hadoop-daemon.sh start datanode 启动datanode(从数据)nameNode都有个web⽹页,端⼝50070创建hdfs ⽂件夹,创建在⽤户名下⾯bin/hdfs dfs -mkdir -p /user/chris查看⽂件夹bin/hdfs dfs -ls -R / 回调查询本地新建⽂件夹mkdir wcinput mkdir wcoutput vi wc.input创建wc.input⽂件,并写⼊内容hdfs⽂件系统新建⽂件夹bin/hdfs dfs -mkdir -p /user/chris/mapreduce/wordcount/input本地⽂件上传hdfs⽂件系统bin/hdfs dfs -put wcinput/wc.input /user/chris/mapreduce/wordcount/input/在hdfs⽂件系统上使⽤mapreduce$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output红⾊代表:读取路径蓝⾊代表:输出路径所以mapreduce的结果已经写到了hdfs的输出⽂件⾥⾯去了Yarn on a Single Node/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml 在hadoop的安装路径下<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>yarn 的配置已经完成在同⼀⽬录下slave⽂件上添加主机名或者主机ip,默认是localhostyarn-env.sh 和 mapred-env.sh把JAVA_HOME 更改下,防⽌出错export JAVA_HOME=/home/chris/software/jdk1.8.0_201将mapred-site.xml.template 重命名为mapred-site.xml,同时添加以下配置<configuration><property><name></name><value>yarn</name></property></configuration>先将/user/chris/mapreduce/wordcount/output/删除再次执⾏$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jarwordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output伪分布式执⾏完毕,mapreduce 执⾏在了yarn 上3,完全分布式基于伪分布式,配置好⼀台机器后,分发⾄其它机器step1: 配置ip 和 hostname 映射vi /etc/hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03同时在window以下路径也得设置C:\Windows\System32\drivers\etc\hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03具体可参考linux ip hostname 映射step2:部署(假设三台机器)不同机器配置不同的节点部署:hella-hadoop hella-hadoop02 hella-hadoop03HDFS:NameNodeDataNode DataNode DataNodeSecondaryNameNodeYARN:ResourceManagerNodeManager NodeManager NodeManager MapReduce:JobHistoryServer配置:* hdfshadoop-env.shcore.site.xmlhdfs-site.xmlslaves*yarnyarn-env.shyarn-site.xmlslaves*mapreducemapred-env.shmapred-site.xmlstep3:修改配置⽂件core.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value></property><property><name>hadoop.tmp.dir</name><value>/opt/app/hadoop-2.5.0/data/tmp</value></property><property><name>fs.trash.interval</name><value>10080</value></property></configuration>hdfs-site.xml<configuration><property><name>node.secondary.http-address</name><value>:50090</value></property></configuration>slavesyarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--NodeManager Resouce --><property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>4</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation-retain-seconds</name><value>640800</value></property></configuration>mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>:19888</value></property></configurationstep4:集群的配置路径在各个机器上要⼀样,⽤户名⼀样step5: 分发hadoop 安装包⾄各个机器节点scp -p 源节点⽬标节点使⽤scp 命令需要配置ssh ⽆密钥登陆,博⽂如下:step6:启动并且test mapreduce可能会有问题No route to Host 的Error,查看hostname 以及 ip 配置,或者是防⽕墙有没有关闭防⽕墙关闭,打开,状态查询,请参考以下博⽂:4,完全分布式+ HAHA全称:HDFS High Availability Using the Quorum Journal Manager 即 HDFS⾼可⽤性通过配置分布式⽇志管理HDFS集群中存在单点故障(SPOF),对于只有⼀个NameNode 的集群,若是NameNode 出现故障,则整个集群⽆法使⽤,知道NameNode 重新启动。
(完整版)hadoop常见笔试题答案

Hadoop测试题一.填空题,1分(41空),2分(42空)共125分1.(每空1分) datanode 负责HDFS数据存储。
2.(每空1分)HDFS中的block默认保存 3 份。
3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。
4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。
5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。
6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。
7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。
一般来说,一个集群中会有一个namenode 和多个datanode 共同工作。
8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。
9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。
文件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。
10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。
11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。
大数据开发基础(试卷编号1412)

大数据开发基础(试卷编号1412)说明:答案和解析在试卷最后1.[单选题]下列选项中,哪一个可以对Hadoop集群进行格式化()A)hadoop namenode -formatB)hadoop namenode -lsC)hdfs datanode -lsD)hdfs datanode -format2.[单选题]以下对信息描述不正确的是( )。
A)信息与能源、材料属于同一层次的概念B)信息是客观的存在C)信息是人类社会赖以生存和发展的三大资源之一D)信息是对数据进行计量形成的记录3.[单选题]在 IBMPASS 中,聚类算法分为分层聚类、Kohonennetwork、K 均值聚类和( ) 四种。
A)系统聚类B)两步聚类C)模型聚类D)其他聚类4.[单选题]大数据的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可视)D)Variety(多样)5.[单选题]输入图片大小为100×100×3,依次经过一层卷积(kernel size 5×5,padding same,stride 2),pooling(kernel size 3×3,padding same,stride 2),又一层卷积(kernel size 3×3,padding valid,stride 1)之后,输出特征图大小为:( )A)25×25B)50×50C)48×48D)23×236.[单选题]IBM在3V的基础上又归纳总结了第4个V是指C)巨量D)极速7.[单选题]在Zookeeper中,路径由( )字符串构成。
A)UnicodeB)UTF-8C)GBKD)ASCII8.[单选题]关于 Spark 的说法中,( )是错误的。
A)采用内存计算模式B)可利用多种语言编程C)主要用于批处理D)可进行map()操作9.[单选题]Spark诞生于哪所学院A)加州大学芝加哥分校B)哈佛大学加州分校C)加州大学伯克利分校D)斯坦福大学圣地亚哥分校10.[单选题]在概率图模型中,(__)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模。
林子雨大数据技术原理与应用第二章课后题答案

大数据第二章课后题答案黎狸1. 试述Hadoop 和谷歌的MapReduce 、GFS 等技术之间的关系。
Hadoop 是Apache 软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
①Hadoop 的核心是分布式文件系统( Hadoop Ditributed FileSystem,HDFS ) 和MapReduce 。
②HDFS是对谷歌文件系统( Google File System, GFS ) 的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。
③MapReduce 是针对谷歌MapReduce 的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。
2. 试述Hadoop 具有哪些特性。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。
①高可靠性。
采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
②高效性。
作为并行分布式计算平台,Hadoop 采用分布式存储和分布式处理两大核心技术,能够高效地处理PB 级数据。
③高可扩展性。
Hadoop 的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点。
④高容错性。
采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
⑤成本低。
Hadoop 采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC 搭建Hadoop 运行环境。
⑥运行在Linux 平台上。
Hadoop 是基于Java 语言开发的,可以较好地运行在Linux 平台上。
大数据_hadoop_分布式文件系统

2.HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目 的核心子项目,是Hadoop主要应用的一个分布式文件系统。 注:HDFS只是Hadoop抽象文件系统的一个实例,还包括本地 文件系统、HFTP、S3等。
一、Hadoop文件系统
1.Hadoop文件系统
二、HDFS简介
1.HDFS
HDFS是基于流数据模式访问和处理超大文件的需求而开 发的,它可以运行于廉价的商用服务器上。
2.HDFS的主要特点:
(1)处理超大文件 实际应用中,HDFS已经用来存储PB级的数据了。 (2)流式的访问数据 运行在HDFS上的应用程序必须流式地访问他们的数据集。 HDFS的设计适合批量处理,而不是用户交互式的。重点是数 据吞吐量(通常分析任务都会涉及数据集的大部分数据不适合低延迟数据访问
HDFS是为了处理大型数据集分析任务,主要是为了达到 高的数据吞吐量而设计的,这就要求可能以高延迟为代价。 注:对于低延迟的访问需求,HBase是更好地选择。
(2)无法高效存储大量小文件 Hadoop中由namenode负责将文件系统中的元数据存储在 内存中,因此文件系统存储的文件总数受限于namenode的内 存容量。当存储大量的小文件时,会大大增加namenode的工 作压力,检索处理元数据所需的时间就会很长。
四、HDFS的基本操作
1.HDFS命令行操作
可以通过命令行接口和HDFS进行交互。
(1)下面以单机上运行Hadoop、执行单机伪分布为 例:
在单机伪分布中需要修改两个配置属性: ① 修改属性: 令 =hdfs://localhost/ 注:hadoop默认使用HDFS文件系统;在本机localhost运行 HDFS,其端口默认采用8020.
简述启动和关闭hadoop集群的方式以及使用的相关指令。

简述启动和关闭hadoop集群的方式以及使用的相关指令。
Hadoop是一个开源的分布式数据处理框架,通常用于存储和处理大规模的数据集。
启动和关闭Hadoop集群是使用Hadoop框架的关键步骤。
本文将一步一步回答如何启动和关闭Hadoop集群,以及使用的相关指令。
一、Hadoop集群启动方式Hadoop集群可以通过两种方式进行启动:单节点启动和多节点启动。
1. 单节点启动单节点启动适用于在本地主机运行Hadoop的开发和测试环境。
在单节点启动方式下,所有Hadoop的组件都运行在一台主机上。
以下是单节点启动Hadoop集群的步骤:1. 安装Java开发环境在启动Hadoop之前,首先需要在机器上安装Java开发环境。
Hadoop依赖于Java来运行。
可以从Oracle官方网站下载并安装Java Development Kit(JDK)。
2. 配置Hadoop环境下载Hadoop的最新版本,并解压到本地目录。
接下来,需要配置Hadoop的环境变量。
打开Hadoop的安装目录,在conf目录下找到hadoop-env.sh文件。
通过编辑这个文件,设置正确的JAVA_HOME 路径。
3. 配置Hadoop集群在启动单节点Hadoop集群之前,需要配置Hadoop集群的相关参数。
打开conf目录下的core-site.xml和hdfs-site.xml文件,分别进行配置。
主要包括配置Hadoop文件系统的URL,配置Hadoop的本地文件夹路径,以及配置Hadoop的端口号等。
4. 格式化Hadoop文件系统在单节点模式下,需要手动初始化Hadoop文件系统。
在Hadoop 的安装目录下,使用命令`bin/hdfs namenode -format` 来格式化文件系统。
5. 启动Hadoop集群在Hadoop的安装目录下,使用命令`sbin/start-all.sh`来启动Hadoop集群。
这个命令会启动Hadoop的所有组件,包括NameNode,DataNode,SecondaryNameNode,以及JobTracker 等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Local (Standalone) ModeMapReduce程序运行在本地,启动jvm启动本地模式:1、配置hadoop-env.sh配置文件中的java_home路径2、在hadoop安装目录下:mkdir input3、在input目录下创建任意文件4、统计input文件夹下所有文件中的单词的数量:bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount input outputPseudo-Distributed Mode1、配置etc/hadoop/core-site.xml:##配置namenode所在主机<configuration><property><name>fs.defaultFS</name><value>hdfs://bxp:8020</value></property></configuration>##配置文件临时目录<configuration><property><name>hadoop.tmp.dir</name><value>/usr/lib/hadoop-2.5.0-cdh5.3.6/data/tmp</value></property></configuration>2、配置etc/hadoop/hdfs-site.xml:##配置文件备份数量<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>3、格式化文件系统bin/hdfsnamenode -format4、启动namenodesbin/hadoop-daemon.sh start namenode4、启动datanodesbin/hadoop-daemon.sh start datanode5、浏览器访问:http://bxp:50070,查看hdfs6、命令行创建hdfs文件目录:bin/hdfsdfs -mkdir -p/user/bxp/mapreduce/wordcount/input7、命令行查看hdfs文件系统目录结构:bin/hdfsdfs -ls -R /8、上传文件到hdfs文件系统:bin/hdfsdfs -put input/test/user/bxp/mapreduce/wordcount/input(下载的命令为get,查看为cat)9、运行bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/bxp/mapreduce/wordcount/input/user/bxp/mapreduce/wordcount/output10、查看运行结果:bin/hdfsdfs -cat /user/bxp/mapreduce/wordcount/output/part-r-00000 此时运行的结果和本地启动时运行的结果相同,不同的是输入的数据源一个是在本地,一个是在hdfs文件系统中。
当在etc/hadoop/core-site.xml中配置文件系统时,回去寻找文件系统,当没有进行配置,默认会去寻找本地文件系统(file:///):YARN on Single Node1、在etc/hadoop/yarn-env.sh中配置JAVA_HOME2、配置etc/hadoop/yarn-site.xml:<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property></configuration>3、在etc/hadoop/slaves文件中配datanode和nodemamager所在主机的主机名或ip(默认datanode和nodemanager在同一台主机上)localhost4、启动yarnsbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanager5、浏览器查看yarn的监控界面:80886、接下来进行将mapreduce程序运行在yarn上的配置.7、配置etc/hadoop/mapred-env.sh中的JAVA_HOME8、重命名mapred-site.xml.template为mapred-site.xml并配置etc/hadoop/mapred-site.xml##将mapreduce运行在yarn上,默认值是local<configuration><property><name></name><value>yarn</value></property></configuration>9、运行bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/bxp/mapreduce/wordcount/input/user/bxp/mapreduce/wordcount/output10、查看运行结果:bin/hdfsdfs -cat /user/bxp/mapreduce/wordcount/output/part-r-00000 此时的运行结果不变,不同的是之前的mapreduce程序运行在本地,此时的mapreduce程序运行在yarn上Fully-Distributed Mode启动mapreduce历史服务器sbin/mr-jobhistory-daemon.sh start historyserver配置yarn日志的聚集聚集:应用运行完成以后,将日志信息上传到HDFS文件系统中在etc/hdoop/yarn-site.xml中增加属性###配置日志聚集<property><name>yarn.log-aggregation-enable</name><value>true</value></property>###配置日志在文件系统中存放的秒数(604800为7天)<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>配置完成后需要将resourcemanager和mapreduce历史任务进行重启才会生效sbin/yarn-daemon.sh stop resourcemanagersbin/yarn-daemon.sh stop nodemanagersbin/mr-jobhistory-daemon.sh stop historyserversbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanagersbin/mr-jobhistory-daemon.sh start historyserverHadoop配置文件∙默认配置文件,在share/hadoop四个模块相对应的jar包中core-default.xmlhdfs-default.xmlyarn-default.xmlmapred-default.xml∙自定义配置文件,在etc/hadoopcore-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml\每次启动程序的时候,系统会首先加载jar包,读取jar包中的默认配置,之后才会读取用户自定义配置,用户自定义配置会覆盖默认配置。
一般在配置的时候,会在官方文档和默认配置文件中查找配置信息,默认配置中会有对配置属性的描述。
配置HDFS垃圾回收时间(分钟)在core-site.xml配置文件中进行增加属性<property><name>fs.trash.interval</name><value>7*24*60</value></property>hadoop启动的三种方式∙各个服务组建逐个启动o hdfshadoop-daemon.shstart|stopnamenode|datanode|secondarynamenodeo yarnyarn-daemon.sh start|stopresourcemanager|nodemanager o mapreducemr-jobhistory-daemon.sh start|stophistoryserver∙各个模块分开启动o hdfsstart-dfs.shstop-dfs.sho yarnstart-yarn.shstop-yarn.sho mapreducemr-historyserver-daemon.sh start|stophistoryserver分模块启动,他的启动方式是:启动命令在主结点上运行,然后通过ssh协议去链接自己和相关将要启动的从结点,从而逐个启动。
使用ssh协议时每次都需要输入密码。
所以需要配置ssh无密钥登陆。
配置无密钥登陆:(客户端生成公钥和私钥,将公钥给将要链接的机器)1、客户端生成密钥。