Hadoop 2.4.0分布式安装手册

合集下载

hadoop安装指南及基本命令

Hadoop安装指南安装JDK（参考jdk的安装文档）关闭防火墙：（1）重启后永久性生效：开启：chkconfig iptables on 关闭：chkconfig iptables off （2）即时生效，重启后失效：开启：service iptables start 关闭：service iptables stop设置DNS解析Hadoop集群之间通过主机名互相访问，所以在安装时需要设置dns解析Vi /etc/hosts 在最后一行加上IP地址和主机名，中间一空格隔开设置SSH免密码登陆：命令“ssh-keygen –t rsa”表示使用rsa加密方式生成密钥，回车后会提示三次输入信息，直接回车就OK命令“cp id_rsa.pub authorized_keys”用于生成授权文件验证ssh无密码登陆命令：ssh localhost安装hadoop安装程序包将hadoop-1.1.2.tar.gz 放在usr/hadopp目录下命令: tar –xzvf Hadoop-1.1.2.tar.gz设置环境变量Vi /etc/profile 在最后面输入：Export HADOOP_HOME=/usr/Hadoop/Hadoop-1.1.2Export PATH=$PATH:$HADOOP_HOME/bin修改hadoop配置文件1.hadoop-env.shexport JAVA_HOME=/usr/local/jdk/2.core-site.xml<configuration><property><name></name><value>hdfs://hadoop0:9000</value><description>change your own hostname</description> </property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value></property></configuration>3.hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property></configuration>4.mapred-site.xml<configuration><property><name>mapred.job.tracker</name><value>hadoop0:9001</value><description>change your own hostname</description></property></configuration>Hadoop集群环境的搭建1、准备机器一台master，若干台slave，配置每台机器的/etc/hosts保证各台机器之间通过机器名可以互访，当前准备三台机器：对三台机器分别安装hadoop环境，SSH秘密登陆和DNS 解析。

Hadoop 2.0安装部署方法

➢ 每个节点均需要安装 ➢ 如果使用CDH5，需使用JDK 7 ➢ 安装流程：
✓ 步骤1：下载JDK 1.6（注意区分32位和64位） ✓ 步骤2：安装JDK 1.6（以32位为例）
chmod +x jdk-6u45-linux-i586.bin ./jdk-6u45-linux-i586.bin
✓ 步骤3：验证是否安装成功
以上整个过程与实验环境基本一致，不同的是步骤2中配置文件设置内容以及步骤3的详细过程。
30
HDFS 2.0的HA配置方法（主备NameNode）
注意事项：
1 主备NameNode有多种配置方法，本课程使用Journal Node方式。为此，需要至少准备3个节点作为Journal Node，这三个节点可与其他服务，比如NodeManager共用节点 2主备两个NameNode应位于不同机器上，这两台机器不要再部署其他服务，即它们分别独享一台机器。（注：HDFS 2.0中无需再部署和配置 Secondary Name，备NameNode已经代替它完成相应的功能） 3 主备NameNode之间有两种切换方式：手动切换和自动切换，其中，自动切换是借助Zookeeper实现的，因此，需单独部署一个Zookeeper集群（通常为奇数个节点，至少3个）。本课程使用手动切换方式。
Hadoop 2.0安装部署方法
Open Passion Value
目录
1. Hadoop 2.0安装部署流程 2. Hadoop 2.0软硬件准备 3. Hadoop 2.0安装包下载 4. Hadoop 2.0测试环境（单机）搭建方法 5. Hadoop 2.0生产环境（多机）搭建方法 6. 总结
✓ yarn-site.xml：

Hadoop2.4、Hbase0.98、Hive集群安装配置手册

Hadoop、Zookeeper、Hbase、Hive集群安装配置手册运行环境机器配置虚机CPU E5504*2 (4核心)、内存 4G、硬盘25G进程说明QuorumPeerMain ZooKeeper ensemble member DFSZKFailoverController Hadoop HA进程，维持NameNode高可用 JournalNode Hadoop HA进程，JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,保证数据高可用 NameNode Hadoop HDFS进程，名字节点DataNode HadoopHDFS进程， serves blocks NodeManager Hadoop YARN进程，负责 Container 状态的维护，并向 RM 保持心跳。

ResourceManager Hadoop YARN进程，资源管理 JobTracker Hadoop MR1进程，管理哪些程序应该跑在哪些机器上，需要管理所有 job 失败、重启等操作。

TaskTracker Hadoop MR1进程，manages the local Childs RunJar Hive进程HMaster HBase主节点HRegionServer HBase RegionServer, serves regions JobHistoryServer 可以通过该服务查看已经运行完的mapreduce作业记录应用服务进程主机/hostname 系统版本mysql mysqld10.12.34.14/ Centos5.810.12.34.15/h15 Centos5.8 HadoopZookeeperHbaseHiveQuorumPeerMainDFSZKFailoverControllerNameNodeNodeManagerRunJarHMasterJournalNodeJobHistoryServerResourceManagerDataNodeHRegionServer10.12.34.16/h16 Centos5.8 HadoopZookeeperHbaseHiveDFSZKFailoverControllerQuorumPeerMainHMasterJournalNodeNameNodeResourceManagerDataNodeHRegionServerNodeManager10.12.34.17/h17 Centos5.8 HadoopZookeeperHbaseHiveNodeManagerDataNodeQuorumPeerMainJournalNodeHRegionServer环境准备1.关闭防火墙15、16、17主机：# service iptables stop2.配置主机名a) 15、16、17主机：# vi /etc/hosts添加如下内容：10.12.34.15 h1510.12.34.16 h1610.12.34.17 h17b) 立即生效15主机：# /bin/hostname h1516主机：# /bin/hostname h1617主机：# /bin/hostname h173. 创建用户15、16、17主机：# useraddhduser密码为hduser# chown -R hduser:hduser /usr/local/4.配置SSH无密码登录a)修改SSH配置文件15、16、17主机：# vi /etc/ssh/sshd_config打开以下注释内容：#RSAAuthentication yes#PubkeyAuthentication yes#AuthorizedKeysFile .ssh/authorized_keysb)重启SSHD服务15、16、17主机：# service sshd restartc)切换用户15、16、17主机：# su hduserd)生成证书公私钥15、16、17主机：$ ssh‐keygen ‐t rsae)拷贝公钥到文件（先把各主机上生成的SSHD公钥拷贝到15上的authorized_keys文件，再把包含所有主机的SSHD公钥文件authorized_keys拷贝到其它主机上）15主机：$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys16主机：$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'17主机：$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'15主机：# cat ~/.ssh/authorized_keys | ssh hduser@h16 'cat >> ~/.ssh/authorized_keys'# cat ~/.ssh/authorized_keys | ssh hduser@h17 'cat >> ~/.ssh/authorized_keys'5.Mysqla) Host10.12.34.14:3306b) username、passwordhduser@hduserZookeeper使用hduser用户# su hduser安装（在15主机上）1.下载/apache/zookeeper/2.解压缩$ tar ‐zxvf /zookeeper‐3.4.6.tar.gz ‐C /usr/local/配置（在15主机上）1.将zoo_sample.cfg重命名为zoo.cfg$ mv /usr/local/zookeeper‐3.4.6/conf/zoo_sample.cfg /usr/local/zookeeper‐3.4.6/conf/zoo.cfg2.编辑配置文件$ vi /usr/local/zookeeper‐3.4.6/conf/zoo.cfga)修改数据目录dataDir=/tmp/zookeeper修改为dataDir=/usr/local/zookeeper‐3.4.6/datab)配置server添加如下内容：server.1=h15:2888:3888server.2=h16:2888:3888server.3=h17:2888:3888server.X=A:B:C说明：X：表示这是第几号serverA：该server hostname/所在IP地址B：该server和集群中的leader交换消息时所使用的端口C：配置选举leader时所使用的端口3.创建数据目录$ mkdir /usr/local/zookeeper‐3.4.6/data4.创建、编辑文件$ vi /usr/local/zookeeper‐3.4.6/data/myid添加内容（与zoo.cfg中server号码对应）：1在16、17主机上安装、配置1.拷贝目录$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.16:/usr/local/$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.17:/usr/local/2.修改myida)16主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1 修改为2b)17主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1修改为3启动$ cd /usr/local/zookeeper‐3.4.6/$./bin/zkServer.sh start查看状态：$./bin/zkServer.sh statusHadoop使用hduser用户# su hduser安装（在15主机上）一、安装Hadoop1.下载/apache/hadoop/common/2.解压缩$ tar ‐zxvf /hadoop‐2.4.0.tar.gz ‐C /usr/local/二、编译本地库，主机必须可以访问internet。

hadoop集群安装配置的主要操作步骤-概述说明以及解释

hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架，主要用于处理和存储大规模数据集。

它提供了高度可靠性、容错性和可扩展性的特性，因此被广泛应用于大数据处理领域。

本文旨在介绍Hadoop集群安装配置的主要操作步骤。

在开始具体的操作步骤之前，我们先对Hadoop集群的概念进行简要说明。

Hadoop集群由一组互联的计算机节点组成，其中包含了主节点和多个从节点。

主节点负责调度任务并管理整个集群的资源分配，而从节点则负责实际的数据存储和计算任务执行。

这种分布式的架构使得Hadoop可以高效地处理大规模数据，并实现数据的并行计算。

为了搭建一个Hadoop集群，我们需要进行一系列的安装和配置操作。

主要的操作步骤包括以下几个方面：1. 硬件准备：在开始之前，需要确保所有的计算机节点都满足Hadoop的硬件要求，并配置好网络连接。

2. 软件安装：首先，我们需要下载Hadoop的安装包，并解压到指定的目录。

然后，我们需要安装Java开发环境，因为Hadoop是基于Java 开发的。

3. 配置主节点：在主节点上，我们需要编辑Hadoop的配置文件，包括核心配置文件、HDFS配置文件和YARN配置文件等。

这些配置文件会影响到集群的整体运行方式和资源分配策略。

4. 配置从节点：与配置主节点类似，我们也需要在每个从节点上进行相应的配置。

从节点的配置主要包括核心配置和数据节点配置。

5. 启动集群：在所有节点的配置完成后，我们可以通过启动Hadoop 集群来进行测试和验证。

启动过程中，我们需要确保各个节点之间的通信正常，并且集群的各个组件都能够正常启动和工作。

通过完成以上这些操作步骤，我们就可以成功搭建一个Hadoop集群，并开始进行大数据的处理和分析工作了。

当然，在实际应用中，还会存在更多的细节和需要注意的地方，我们需要根据具体的场景和需求进行相应的调整和扩展。

1 Hadoop安装手册Hadoop2.0

Hadoop2.0安装手册目录第1章安装VMWare Workstation 10 (4)第2章VMware 10安装CentOS 6 (10)2.1 CentOS系统安装 (10)2.2 安装中的关键问题 (13)2.3 克隆HadoopSlave (17)2.4 windows中安装SSH Secure Shell Client传输软件 (19)第3章CentOS 6安装Hadoop (23)3.1 启动两台虚拟客户机 (23)3.2 Linux系统配置 (24)3.2.1软件包和数据包说明 (25)3.2.2配置时钟同步 (25)3.2.3配置主机名 (26)3.2.5使用setup 命令配置网络环境 (27)3.2.6关闭防火墙 (29)3.2.7配置hosts列表 (30)3.2.8安装JDK (31)3.2.9免密钥登录配置 (32)3.3 Hadoop配置部署 (34)3.3.1 Hadoop安装包解压 (34)3.3.2配置环境变量hadoop-env.sh (34)3.3.3配置环境变量yarn-env.sh (35)3.3.4配置核心组件core-site.xml (35)3.3.5配置文件系统hdfs-site.xml (35)3.3.6配置文件系统yarn-site.xml (36)3.3.7配置计算框架mapred-site.xml (37)3.3.8 在master节点配置slaves文件 (37)3.3.9 复制到从节点 (37)3.4 启动Hadoop集群 (37)3.4.1 配置Hadoop启动的系统环境变量 (38)3.4.2 创建数据目录 (38)3.4.3启动Hadoop集群 (38)第4章安装部署Hive (44)4.1 解压并安装Hive (44)4.2 安装配置MySQL (45)4.3 配置Hive (45)4.4 启动并验证Hive安装 (46)第5章安装部署HBase (49)5.1 解压并安装HBase (49)5.2 配置HBase (50)5.2.1 修改环境变量hbase-env.sh (50)5.2.2 修改配置文件hbase-site.xml (50)5.2.3 设置regionservers (51)第1章安装VMWare Workstation 105.2.4 设置环境变量 (51)5.2.5 将HBase安装文件复制到HadoopSlave节点 (51)5.3 启动并验证HBase (51)第6章安装部署Mahout (54)6.1 解压并安装Mahout (54)6.2 启动并验证Mahout (55)第7章安装部署Sqoop (57)7.1 解压并安装Sqoop (57)7.2 配置Sqoop (58)7.2.1 配置MySQL连接器 (58)7.2.2配置环境变量 (58)7.3 启动并验证Sqoop (59)第8章安装部署Spark (61)8.1 解压并安装Spark (61)8.2 配置Hadoop环境变量 (62)8.3 验证Spark安装 (62)第9章安装部署Storm (66)安装Storm依赖包 (66)9.1安装ZooKeeper集群 (66)9.1.1解压安装 (66)9.1.2配置ZooKeeper属性文件 (67)9.1.3 将Zookeeper安装文件复制到HadoopSlave节点 (68)9.1.3启动ZooKeeper集群 (68)9.2安装Storm (69)9.2.1 解压安装 (69)9.2.2修改storm.yaml配置文件 (70)9.2.3 将Storm安装文件复制到HadoopSlave节点 (70)9.2.4启动Storm集群 (70)9.2.5向Storm集群提交任务 (71)第10章安装部署Kafka (73)10.1. 安装Kafka (73)10.1.1下载Kafka安装文件 (73)10.2. 配置Kafka (73)10.3. 启动Kafka (74)第1章安装VMWare Workstation 10第1章安装VMWare 10主要内容安装VMWare Workstation 10第1章安装VMWare Workstation 10 在软件包中找到“software\vmware”目录并进入该目录，如下所示：点击“VMware-workstation-full-10.0.0-1295980.exe”安装2等待安装软件检测和解压以后，出现如下界面，直接单击下一步即可。

hadoop 操作手册

hadoop 操作手册Hadoop 是一个分布式计算框架，它使用 HDFS（Hadoop Distributed File System）存储大量数据，并通过 MapReduce 进行数据处理。

以下是一份简单的 Hadoop 操作手册，介绍了如何安装、配置和使用 Hadoop。

一、安装 Hadoop1. 下载 Hadoop 安装包，并解压到本地目录。

2. 配置 Hadoop 环境变量，将 Hadoop 安装目录添加到 PATH 中。

3. 配置 Hadoop 集群，包括 NameNode、DataNode 和 JobTracker 等节点的配置。

二、配置 Hadoop1. 配置 HDFS，包括 NameNode 和 DataNode 的配置。

2. 配置 MapReduce，包括 JobTracker 和 TaskTracker 的配置。

3. 配置 Hadoop 安全模式，如果需要的话。

三、使用 Hadoop1. 上传文件到 HDFS，使用命令 `hadoop fs -put local_file_path/hdfs_directory`。

2. 查看 HDFS 中的文件和目录信息，使用命令 `hadoop fs -ls /`。

3. 运行 MapReduce 作业，编写 MapReduce 程序，然后使用命令`hadoop jar my_` 运行程序。

4. 查看 MapReduce 作业的运行结果，使用命令 `hadoop fs -cat/output_directory/part-r-00000`。

5. 从 HDFS 中下载文件到本地，使用命令 `hadoop fs -get/hdfs_directory local_directory`。

6. 在 Web 控制台中查看 HDFS 集群信息，在浏览器中打开7. 在 Web 控制台中查看 MapReduce 作业运行情况，在浏览器中打开四、管理 Hadoop1. 启动和停止 Hadoop 集群，使用命令 `` 和 ``。

(完整word版)Hadoop 2.6.0分布式部署参考手册

Hadoop 2。

6.0分布式部署参考手册1。

环境说明 (2)1。

1安装环境说明 (2)2。

2 Hadoop集群环境说明: (2)2。

基础环境安装及配置 (2)2.1 添加hadoop用户 (2)2.2 JDK 1.7安装 (2)2.3 SSH无密码登陆配置 (3)2.4 修改hosts映射文件 (3)3.Hadoop安装及配置 (4)3.1 通用部分安装及配置 (4)3。

2 各节点配置 (4)4。

格式化/启动集群 (4)4.1 格式化集群HDFS文件系统 (4)4。

2启动Hadoop集群 (4)附录1 关键配置内容参考 (5)1 core-site.xml (5)2 hdfs-site。

xml (5)3 mapred—site.xml (6)4 yarn-site。

xml (6)5 hadoop-env。

sh (6)6 slaves (6)附录2 详细配置内容参考 (7)1 core-site.xml (7)2 hdfs-site.xml (7)3 mapred—site。

xml (8)4 yarn-site。

xml (9)5 hadoop-env。

sh (12)6 slaves (12)附录3 详细配置参数参考 (12)conf/core—site.xml (12)conf/hdfs-site。

xml (12)o Configurations for NameNode: (12)o Configurations for DataNode： (13)conf/yarn—site。

xml (13)o Configurations for ResourceManager and NodeManager： (13)o Configurations for ResourceManager： (13)o Configurations for NodeManager： (15)o Configurations for History Server （Needs to be moved elsewhere）: 16 conf/mapred—site.xml (16)o Configurations for MapReduce Applications： (16)o Configurations for MapReduce JobHistory Server: (16)1。

hadoop安装流程

hadoop安装流程Hadoop是一种开源的分布式数据处理框架，它的出现极大地简化了大数据处理的流程，成为了数据科学家们的有力工具。

在使用Hadoop之前，需要先完成其安装，在这里，我们将详细阐述Hadoop的安装流程。

第一步：下载Hadoop。

在Hadoop官网上，可以找到最新的Hadoop版本，选择合适的版本后进行下载。

下载完成后，需要进行解压操作，可以使用命令tar -zxvf xxxx.tar.gz 进行解压，其中xxxx 为Hadoop的安装包名称。

第二步：配置环境变量。

完成解压后，需要设置环境变量。

在bashrc文件中配置，export HADOOP_HOME=/usr/local/hadoopexport PATH=$HADOOP_HOME/bin:$PATHexport CLASSPATH=$HADOOP_HOME/lib/*:$CLASSPATH最后执行命令source ~/.bashrc，让环境变量立刻生效。

第三步：修改配置文件。

进入解压后文件夹中的/etc/hadoop文件夹，将其中的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml配置文件进行修改。

以core-site.xml为例，需要加入以下内容：<property><name></name><value>hdfs://localhost:9000</value></property>以hdfs-site.xml为例，需要加入以下内容：<property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</valu e></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</valu e></property>以mapred-site.xml为例，需要加入以下内容：<property><name></name><value>yarn</value></property>以yarn-site.xml为例，需要加入以下内容：<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>第四步：格式化NameNode。

Hadoop分布式集群搭建详细教程

hadoop1hadoop2hadoop3HDFS NameNodeDataNodeDataNodeSecondaryNameNodeDataNodeYARN NodeManager ResourceManagerNodeManagerNodeManager Hadoop分布式集群搭建详细教程本教程是基于CentOS-7-x86_64的Hadoop完全分布式搭建1、搭建前的准备1）CentOS-7虚拟机3台(hadoop1、hadoop2、hadoop3)2）hadoop-3.3.0包3）jdk-8u144-linux-x64包2、整体部署3、基本步骤1）修改3台虚拟机的名称2）关闭、禁⽌开机⾃启防⽕墙3）配置静态ip4）修改/etc/hosts⽂件(hadoop1、hadoop2、hadoop3)5）配置免密登录(hadoop1、hadoop2、hadoop3）6）安装JDK及配置相应环境变量(hadoop1)7）安装Hadoop及配置相应环境变量(hadoop1)8）修改配置⽂件(hadoop1)9）拷贝(hadoop1-->hadoop2，hadoop1-->hadoop3)10）远程同步/etc/profile⽂件(hadoop1)11）格式化NameNode12）启动和关闭Hadoop集群13）通过浏览器访问Hadoop集群14）测试集群，上传⽂件4、详细步骤操作1）修改3台虚拟机的名称#hostname #查看主机名称hostnamectl set-hostname 主机名 #修改主机名称#reboot #重启虚拟机【注】：修改主机名称后需重启才能⽣效2）关闭、禁⽌开机⾃启防⽕墙#systemctl status firewalld #查看防⽕墙状态#systemctl stop firewalld #关闭防⽕墙#systemctl disable firewalld #关闭防⽕墙开机⾃启#vim /etc/selinux/config #修改selinux配置⽂件SELINUX=enforcing 修改为 SELINUX=disabled3）配置静态ip#cd /etc/sysconfig/network-scripts/#vim ifcfg-ens33BOOTPROTO=none 改为 BOOTPROTO=staticIPADDR也进⾏修改【注】：因为3台虚拟机都是克隆完成的，ip地址⼀致，故在此对ip进⾏修改4）修改/etc/hosts⽂件(hadoop1、hadoop2、hadoop3)192.168.150.14 hadoop1192.168.150.15 hadoop2192.168.150.16 hadoop3#reboot5）配置免密登录(hadoop1、hadoop2、hadoop3）#ssh-keygen -t rsa #⽣成ssh密钥，不提⽰输⼊密码三次回车键#ssh-copy-id hadoop1#ssh-copy-id hadoop2#ssh-copy-id hadoop3 #将密钥拷贝到各节点#ssh hadoop1#ssh hadoop2#ssh hadoop3 #测试免密登录6）安装JDK及配置相应环境变量(hadoop1)#cd /opt/#mkdir modules #创建modules⽂件夹#mkdir tar_packages #创建tar_packages⽂件夹#cd tar_packages/ #进⼊tar_packages⽂件夹将hadoop-3.3.0.tar.gz和jdk-8u144-linux-x64.tar.gz包导⼊tar_packages⽂件夹中导⼊⽅法较多，可⽤Xshell,可⽤命令wget xxxxx下载,亦可命令rz导⼊#tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/modules/ #将压缩包解压到/opt/modules/⽂件夹下#cd /opt/modules/jdk1.8.0_144/#pwd/opt/modules/jdk1.8.0_144 #复制此路径#vim /etc/profile/ #修改配置⽂件,加⼊环境变量在⽂件末尾加⼊#JAVA_HOMEexport JAVA_HOME=/opt/modules/jdk1.8.0_144export PATH=$PATH:$JAVA_HOME/bin#source /etc/profile #⽴即⽣效#java#javac#javadoc #测试java环境7）安装Hadoop及配置相应环境变量(hadoop1)#cd /opt/tar_packages/#tar -zxvf hadoop-3.3.0.tar.gz -C /opt/modules #将压缩包解压到/opt/modules/⽂件夹下#cd /opt/modules/hadoop-3.3.0#pwd/opt/modules/hadoop-3.3.0 #复制此路径#vim /etc/profile #修改配置⽂件，加⼊环境变量在⽂件末尾加⼊#HADOOP_HOMEexport HADOOP_HOME=/opt/modules/hadoop-3.3.0export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin#source /etc/profile #⽴即⽣效#hadoop #测试hadoop8）修改配置⽂件(hadoop1)1、修改hadoop-env.sh⽂件#cd /opt/modules/hadoop-3.3.0/etc/hadoop#vim hadoop-env.sh在⽂件中加⼊export JAVA_HOME=/opt/modules/jdk1.8.0_1442、修改yarn-env.sh⽂件#vim yarn-env.sh在⽂件中加⼊export JAVA_HOME=/opt/modules/jdk1.8.0_1443、修改mapred-env.sh⽂件#vim mapred-env.sh在⽂件中加⼊export JAVA_HOME=/opt/modules/jdk1.8.0_1444、修改core-site.xml#vim core-site.xml在<configuration></configuration>间加⼊<property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value><property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-3.3.0/data/tmp</value></property>5、修改hdfs-site.xml⽂件# vim hdfs-site.xml在<configuration></configuration>间加⼊<property><name>dfs.replication</name><value>2</value></property><property><name>node.secondary.http-address</name><value>hadoop3:50090</value></property>6、修改yarn-site.xml⽂件#vim yarn-site.xml在<configuration></configuration>间加⼊<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>hadoop2</value></property>7、修改mapred-site.xml⽂件#vim mapred-site.xml在<configuration></configuration>间加⼊<property><name></name><value>yarn</value></property>8、修改workers⽂件#vim workers修改为3个主机名称hadoop1hadoop2hadoop3【注】：我这⾥的hadoop-3.3.0版本⽂件名为workers,hadoop-2.x.x版本⽂件名为slaves9）拷贝(hadoop1-->hadoop2，hadoop1-->hadoop3)#scp -r /opt/modules/ root@hadoop2:/opt/#scp -r /opt/modules/ root@hadoop3:/opt/ #将hadoop1主节点下opt⽬录下的modules⽂件夹分别拷贝到hadoop2和hadoop3节点的opt⽬录下10）远程同步/etc/profile⽂件(hadoop1)#rsync -rvl /etc/profile root@hadoop2:/etc/profile#rsync -rvl /etc/profile root@hadoop3:/etc/profile #远程同步，将hadoop1主节点上的配置⽂件分别拷贝到hadoop2和hadoop3节点#tail /etc/profile #显⽰已修改的配置⽂件(/etc/profile)内容，查看是否同步成功#source /etc/profile #⽴即⽣效#javadoc #测试#hadoop #测试#cat /opt/modules/hadoop-3.3.0/etc/hadoop/workers #查看workers⽂件内容是否⼀致11）格式化NameNodecd /opt/modules/hdoop-3.3.0#hadoop namenode -format #格式化NameNode12）启动和关闭Hadoop集群#启动集群#cd /opt/modules/hadoop-3.3.0/sbin/#start-dfs.sh先在hadoop1节点下执⾏上述命令start-dfs.sh#cd /opt/modules/hadoop-3.3.0/sbin/等hadoop1主节点下start-dfs.sh命令执⾏结束后，在hadoop2节点下执⾏命令start-yarn.sh#jps #hadoop1、hadoop2、hadoop3⼀起查看启动的进程#关闭集群#stop-yarn.sh先在hadoop2节点下执⾏命令stop-yarn.sh#stop-dfs.sh等hadoop2节点下stop-yarn.sh命令执⾏结束后，在hadoop1主节点下执⾏命令stop-dfs.sh【注】：启动集群和关闭集群顺序是相反的，启动时先hadoop1，关闭时后hadoop1【注】：因hadoop版本不同，hadoop-2.x.x下启动正常，hadoop-3.x.x下可能出现如下错误：[root@hadoop1 sbin]# start-dfs.shStarting namenodes on [hadoop1]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to operate on hdfs datanode as rootERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.Starting secondary namenodes [hadoop3]ERROR: Attempting to operate on hdfs secondarynamenode as rootERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.[root@hadoop1 sbin]# start-dfs.shWARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.解决办法为：在start-dfs.sh和stop-dfs.sh⽂件⾸部加⼊如下部分1 HDFS_DATANODE_USER=root2 HDFS_DATANODE_SECURE_USER=hdfs3 HDFS_NAMENODE_USER=root4 HDFS_SECONDARYNAMENODE_USER=root在start-yarn.sh和stop-yarn.sh⽂件⾸部加⼊如下部分1 YARN_RESOURCEMANAGER_USER=root2 HADOOP_SECURE_DN_USER=yarn3 YARN_NODEMANAGER_USER=root这样这个问题就解决了，记得看清楚⾃⼰hadoop的版本号13）通过浏览器访问Hadoop集群在浏览器输⼊：192.168.150.14(主节点ip):9870访问Hadoop⽂件系统【注】：hadoop-3.x.x，服务器端⼝改为了9870，并不是原来的50070，看清⾃⼰的Hadoop版本可在Windows下配置主机节点映射，配置完成后即可在浏览器输⼊：hadoop1(主节点名称):9870访问Hadoop⽂件系统具体映射配置：在C:\Windows\System32\drivers\etc\hosts⽂件后，加⼊与在虚拟机/etc/hosts配置⼀致的内容，即：#192.168.150.14 hadoop1#192.168.150.15 hadoop2#192.168.150.16 hadoop314）测试集群，上传⽂件#hadoop fs -mkdir -p /root/ #创建root⽬录#hadoop fs -put /opt/tar_packages/jdk-8u144-linux-x64.tar.gz /root/ #将/opt/tar_packages/⽬录下的jdk-8u144-linux-x64.tar.gz压缩包上传到刚才创建的root⽬录下⾄此，分布式集群搭建完成！PS：搭建过程中需要的⼯具我整理了⼀下，需要的请⾃取哦！(提取码:u240)如果搭建过程遇到了什么难以解决的问题，欢迎留⾔，毕竟多⼀个⼈⼀起百度可能会快⼀点！。

Ubuntu14.04下安装Hadoop2.4.0 (单机模式)

Ubuntu14.04下安装Hadoop2.4.0 （单机模式）一、在Ubuntu下创建Hadoop组和hadoop用户增加hadoop用户组，同时在该组里增加hadoop用户，后续在涉及到hadoop操作时，我们使用该用户。

1、创建hadoop用户组2、创建hadoop用户sudoadduser -ingrouphadoophadoop回车后会提示输入新的UNIX密码，这是新建用户hadoop的密码，输入回车即可。

如果不输入密码，回车后会重新提示输入密码，即密码不能为空。

最后确认信息是否正确，如果没问题，输入Y，回车即可。

3、为hadoop用户添加权限输入：sudogedit /etc/sudoers回车，打开sudoers文件给hadoop用户赋予和root用户同样的权限二、用新增加的hadoop用户登录Ubuntu系统三、安装sshsudo apt-get install openssh-server安装完成后，启动服务sudo /etc/init.d/ssh start查看服务是否正确启动：ps -e | grepssh设置免密码登录，生成私钥和公钥ssh-keygen -t rsa -P ""此时会在/home/hadoop/.ssh下生成两个文件：id_rsa和id_rsa.pub，前者为私钥，后者为公钥。

下面我们将公钥追加到authorized_keys中，它用户保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys登录sshsshlocalhost退出exit四、安装Java环境sudo apt-get install openjdk-7-jdk查看安装结果，输入命令：java -version，结果如下表示安装成功。

五、安装hadoop2.4.01、官网下载/apache/hadoop/common/2、安装解压sudo tar xzf hadoop-2.4.0.tar.gz假如我们要把hadoop安装到/usr/local下拷贝到/usr/local/下，文件夹为hadoopsudo mv hadoop-2.4.0 /usr/local/hadoop赋予用户对该文件夹的读写权限sudochmod 774 /usr/local/hadoop3、配置1）配置~/.bashrc配置该文件前需要知道Java的安装路径，用来设置JAVA_HOME环境变量，可以使用下面命令行查看安装路径update-alternatives - -config java执行结果如下：完整的路径为/usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java我们只取前面的部分/usr/lib/jvm/java-7-openjdk-amd64配置.bashrc文件sudogedit ~/.bashrc该命令会打开该文件的编辑窗口，在文件末尾追加下面内容，然后保存，关闭编辑窗口。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop-2.4.0分布式安装手册一见2014/4/4目录目录 (1)1.前言 (2)2.部署 (2)2.1.机器列表 (2)2.2.主机名 (2)2.2.1.临时修改主机名 (3)2.2.2.永久修改主机名 (3)2.3.免密码登录范围 (4)3.约定 (4)3.1.安装目录约定 (4)3.2.服务端口约定 (5)4.工作详单 (6)5.JDK安装 (6)5.1.下载安装包 (6)5.2.安装步骤 (6)6.免密码ssh2登录 (7)7.Hadoop安装和配置 (8)7.1.下载安装包 (8)7.2.安装和环境变量配置 (8)7.3.修改hadoop-env.sh (9)7.4.修改/etc/hosts (9)7.5.修改slaves (10)7.6.准备好各配置文件 (10)7.7.修改core-site.xml (11)7.8.修改hdfs-site.xml (11)node.rpc-address (11)7.9.修改mapred-site.xml (12)7.10.修改yarn-site.xml (12)8.启动HDFS (12)8.1.格式化NameNode (12)8.2.启动HDFS (13)8.3.检查启动是否成功 (13)8.3.1.DataNode (13)Node (14)8.3.3.SecondaryNameNode (14)8.4.执行HDFS命令 (14)8.4.1.hdfs dfs ls (14)8.4.2.hdfs dfs-put (14)8.4.3.hdfs dfs-rm (15)9.启动YARN (15)9.1.启动YARN (15)9.2.执行YARN命令 (15)9.2.1.yarn node-list (15)9.2.2.yarn node-status (16)10.运行MapReduce程序 (16)11.常见错误 (17)11.1.执行“hdfs dfs-ls”时报ConnectException (17)11.2.Incompatible clusterIDs (18)11.3.Inconsistent checkpoint fields (20)12.相关文档 (21)1.前言本文的目的是为当前最新版本的Hadoop2.4.0提供最为详细的安装说明，以帮助减少安装过程中遇到的困难，并对一些错误原因进行说明。

本文的安装只涉及了hadoop-common、hadoop-hdfs、hadoop-mapreduce和hadoop-yarn，并不包含HBase、Hive和Pig等。

2.部署2.1.机器列表共5台机器，部署如下表所示：NameNode SecondaryNameNode DataNodes172.25.40.171172.25.39.16610.12.154.7710.12.154.7810.12.154.792.2.主机名机器IP对应的主机名172.25.40.171VM-40-171-sles10-64172.25.39.166VM-39-166-sles10-6410.12.154.77DEVNET-154-7710.12.154.78DEVNET-154-7010.12.154.79DEVNET-154-79注意主机名不能有下划线，否则启动时，SecondaryNameNode节点会报如下所示的错误（取自hadoop-hadoop-secondarynamenode-VM_39_166_sles10_64.out文件）：Java HotSpot(TM)64-Bit Server VM warning:You have loaded library /data/hadoop/hadoop-2.4.0/lib/native/libhadoop.so.1.0.0which might have disabled stack guard.The VM will try to fix the stack guard now.It's highly recommended that you fix the library with'execstack-c<libfile>',or link it with'-z noexecstack'. Exception in thread"main"ng.IllegalArgumentException:The value of property bind.address must not be nullat mon.base.Preconditions.checkArgument(Preconditions.java:88)at org.apache.hadoop.conf.Configuration.set(Configuration.java:971)at org.apache.hadoop.conf.Configuration.set(Configuration.java:953)at org.apache.hadoop.http.HttpServer2.initializeWebServer(HttpServer2.java:391)at org.apache.hadoop.http.HttpServer2.<init>(HttpServer2.java:344)at org.apache.hadoop.http.HttpServer2.<init>(HttpServer2.java:104)at org.apache.hadoop.http.HttpServer2$Builder.build(HttpServer2.java:292)atnode.SecondaryNameNode.initialize(SecondaryNameNode.java:264) atnode.SecondaryNameNode.<init>(SecondaryNameNode.java:192) at node.SecondaryNameNode.main(SecondaryNameNode.java:651)2.2.1.临时修改主机名命令hostname不但可以查看主机名，还可以用它来修改主机名，格式为：hostname新主机名。

在修改之前172.25.40.171对应的主机名为VM-40-171-sles10-64，而172.25.39.166对应的主机名为VM_39_166_sles10_64。

两者的主机名均带有下划线，因此需要修改。

为求简单，仅将原下划线改成横线：hostname VM-40-171-sles10-64hostname VM-39-166-sles10-64经过上述修改后，还不够，类似于修改环境变量，还需要通过修改系统配置文件做永久修改。

2.2.2.永久修改主机名不行的Linux发行版本，对应的系统配置文件可能不同，对于SuSE10.1，它的是/etc/HOSTNAME：#cat/etc/HOSTNAMEVM_39_166_sles10_64将文件中的“VM_39_166_sles10_64”，改成“VM-39-166-sles10-64”。

有些Linux发行版本对应的可能是/etc/hostname文件，有些可能是/etc/sysconfig/network文件。

不但所在文件不同，修改的方法可能也不一样，比如有些是名字对形式，如：HOSTNAME=主机名。

修改之后，需要重启网卡，以使修改生效，执行命令：/etc/rc.d/boot.localnet start（不同系统，命令会有差异，这是SuSE上的方法），再次使用hostname查看，会发现主机名变了。

直接重启系统，也可以使修改生效。

注意修改主机名后，需要重新验证ssh免密码登录，方法为：ssh用户名@新的主机名。

2.3.免密码登录范围要求能通过免登录包括使用IP和主机名都能免密码登录：1)NameNode能免密码登录所有的DataNode2)SecondaryNameNode能免密码登录所有的DataNode3)NameNode能免密码登录自己4)SecondaryNameNode能免密码登录自己5)NameNode能免密码登录SecondaryNameNode6)SecondaryNameNode能免密码登录NameNode7)DataNode能免密码登录自己8)DataNode不需要配置免密码登录NameNode、SecondaryNameNode和其它DataNode。

3.约定3.1.安装目录约定为便于讲解，本文约定Hadoop、JDK安装目录如下：安装目录版本说明JDK/data/jdk 1.7.0ln-s/data/jdk1.7.0_55/data/jdkHadoop/data/hadoop/current 2.4.0ln-s/data/hadoop/hadoop-2.4.0/data/hadoop/current在实际安装部署时，可以根据实际进行修改。

3.2.服务端口约定端口作用9000fs.defaultFS，如：hdfs://172.25.40.171:9000node.rpc-address，DataNode会连接这个端口node.http-addressnode.https-addressnode.backup.addressnode.backup.http-addressnode.secondary.http-address，如：172.25.39.166:50090 node.secondary.https-address，如：172.25.39.166:50091 50020dfs.datanode.ipc.address50075dfs.datanode.http.address50475dfs.datanode.https.address50010dfs.datanode.address，DataNode的数据传输端口8480dfs.journalnode.rpc-address8481dfs.journalnode.https-address8032yarn.resourcemanager.address8088yarn.resourcemanager.webapp.address，YARN的http端口8090yarn.resourcemanager.webapp.https.address8030yarn.resourcemanager.scheduler.address8031yarn.resourcemanager.resource-tracker.address8033yarn.resourcemanager.admin.address8042yarn.nodemanager.webapp.address8040yarn.nodemanager.localizer.address8188yarn.timeline-service.webapp.address10020mapreduce.jobhistory.address19888mapreduce.jobhistory.webapp.address2888ZooKeeper，如果是Leader，用来监听Follower的连接3888ZooKeeper，用于Leader选举2181ZooKeeper，用来监听客户端的连接.port，HMaster的http端口60000hbase.master.port，HMaster的RPC端口.port，HRegionServer的http端口60020hbase.regionserver.port，HRegionServer的RPC端口8080hbase.rest.port，HBase REST server的端口10000hive.server2.thrift.port9083hive.metastore.uris4.工作详单为运行Hadoop（HDFS、YARN和MapReduce）需要完成的工作详单：JDK安装Hadoop是Java语言开发的，所以需要。