centos下hadoop2.6.0配置

合集下载

hadoop2.6.0安装

hadoop2.6.0安装搭建hadoop2.6.0开发环境前言：因为没有物理机器要测试，所以学习如何构建Hadoop环境并在本地笔记本中创建三个Linux虚拟机是一个不错的选择。

安装VMware并准备三台相同的Linux虚拟机Linux虚拟机ISO：虚拟机平台服务器版本：PS：关于软件，软件描述如下：本地笔记本：t420，8g内存，64位操作系统，配置如下：1.安装虚拟机1.1安装vmware-workstation，一路下一步即可，导入centos，使用iso方式搭建linux虚拟机2.安装Linux虚拟机2.1安装vmware-workstation完成后，选择新建虚拟机，导入centos，使用iso方式搭建linux虚拟机选择路径选择多核选择2G内存选择桥连接的方式选择磁盘I/O模式创建全新的虚拟机选择磁盘类型虚拟机文件存储方式设置虚拟机文件的存储路径完成打开，报错如下：无法准备安装说明：\\software\\wmware\\centos-6.5-x86 64-bin-dvd1。

iso。

确保您正在使用有效的Linux安装光盘。

如果出现错误，您可能需要安装VMWareWorkstation。

原因是笔记本没有开启虚拟机功能选项，重启电脑，然后按住f1键，进入bios设置，找到virtual选项，设置成enable，然后保存退出。

打开时出现错误消息：EDD:Error8000ReadingSector 2073976原因是：vmwareworkstation9，版本太老，升级到10版本，就ok了。

设置虚拟机网络连接（固定IP），并将连接模式设置为NAT模式看下是否能上外网，左键点击笔记本右下角无线图标，再点击打开网络与共享中心，关闭vmnet01，只保留vmnet08，然后使用默认的ipv4的ip地址192.168.52.1像两颗豌豆一样克隆另一颗。

在虚拟机name02上右键弹出菜单里点击”管理(m)”，然后点击右边下拉菜单”克隆(c)”，如下所示：继续下一步选择创建完成克隆(f)设置名称和位置，然后单击finish开始复制，时间较长，耐心等待，如下单击“关闭”按钮以完成克隆。

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。

本教程由厦门大学数据库实验室出品，转载请注明。

本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。

另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。

为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。

但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。

例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。

环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。

本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。

准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop，并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。

centos7环境下hadoop2.6.1完全分布式部署

1、环境: 3台CentOS7 64位(1).安装centos 7(2).修改三台服务器/etc下的hosts和hostname：三台服务器的Hostname分别修改：master-hadoop、slave1-hadoop、slave2-hadoop 三台服务器的Hosts文件修改为一致的：master-hadoopslave1-hadoopslave2-hadoop注意：这里的IP为三台主机实际IP地址.(3). 关闭防火墙（三台机器全部关闭）# systemctl status --查看防火墙状态# systemctl stop --关闭防火墙# systemctl disable --永久关闭防火墙2、SSH免密码登录设置.因为Hadoop需要通过SSH登录到各个节点进行操作，我用的是root用户，每台服务器都生成公钥，再合并到authorized_keys。

(1)CentOS默认没有启动ssh无密登录，去掉/etc/ssh/sshd_config其中2行的注释，每台服务器都要设置，#RSAAuthentication yes#PubkeyAuthentication yes(2)输入命令，ssh-keygen -t rsa，生成key，都不输入密码，一直回车，/root就会生成.ssh 文件夹，每台服务器都要设置，(3)合并公钥到authorized_keys文件，在Master服务器，进入/root/.ssh目录，通过SSH 命令合并，cat >> authorized_keysssh cat ~/.ssh/>> authorized_keysssh cat ~/.ssh/>> authorized_keys(4)把Master服务器/root/.ssh的authorized_keys、known_hosts两个文件复制到两台Slave服务器的/root/.ssh目录在两台slave服务器上执行：/sbin/restorecon -Rv /root/.ssh(5)完成，ssh、ssh就不需要输入密码了3、安装JDK先卸载系统原版本# java –version使用# rpm -qa | grep java 会看到自带的Java卸载JDK，执行以下操作：# rpm -e --nodeps rpm -e --nodeps rpm -e --nodeps 安装新的JDK上传新的软件到/usr/local/执行以下操作：# rpm -ivhJDK默认安装在/usr/java中。

RedHat7 Hadoop-2.6.0

一、服务器版本查看cat /etc/redhat-release二、新建目录：mkdir -p /softwares上传hadoop-2.6.0.tar.gz三、解压cd /softwarestar zxvf hadoop-2.6.0.tar.gz四、设置环境变量分别修改主机名称vim /etc/hostname(修改主机名)修改host名称vim /etc/hosts192.168.18.202 Master.Hadoop192.168.18.203 Slave1.Hadoop192.168.18.208 Slave2.Hadoop192.168.18.202 192.168.18.203 192.168.18.208 五、设置免密登录创建hadoop用户【在master\slave1\slave2上】# useradd hadoop --创建用户名为hadoop的用户# passwd hadoop --为用户hadoop设置密码# su - hadoop --切换到root用户# cd ~ --打开用户文件夹# ssh-keygen -t rsa -P '' --生成密码对，/home/hadoop/.ssh/id_rsa和/home/hadoop/.ssh/ id_rsa.pub# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys --把id_rsa.pub追加到授权的k ey里面去# chmod 600 ~/.ssh/authorized_keys --修改权限# chmod 700 ~/.ssh# su hadoop --切换到hadoop用户# scp ~/.ssh/id_rsa.pub hadoop@192.168.18.203:~/.ssh/master# scp ~/.ssh/id_rsa.pub hadoop@192.168.18.208:~/.ssh/master# su hadoop --切换到hadoop用户# scp ~/.ssh/id_rsa.pub hadoop@192.168.18.202:~/.ssh/slave1# su hadoop --切换到hadoop用户# scp ~/.ssh/id_rsa.pub hadoop@192.168.18.202:~/.ssh/slave2# su root --切换到root用户# vim /etc/ssh/sshd_config --修改ssh配置文件RSAAuthentication yes #启用RSA认证PubkeyAuthentication yes #启用公钥私钥配对认证方式AuthorizedKeysFile .ssh/authorized_keys #公钥文件路径# systemctl restart sshd.service ---重启 sshd 服务在slave1、slave2上# su hadoop --切换到hadoop用户# cat ~/.ssh/master >> ~/.ssh/authorized_keys在master上# su hadoop --切换到hadoop用户# cat ~/.ssh/slave1 >> ~/.ssh/authorized_keys# cat ~/.ssh/slave2 >> ~/.ssh/authorized_keys重启sshd 服务：systemctl restart sshd.service验证无密码登陆，在slave1和slave2上# su hadoop --切换到hadoop用户# ssh Master.Hadoop验证无密码登陆，在master上# su - hadoop# ssh Slave1.Hadoop# ssh Slave2.Hadoop六、修改hadoop文件mkdir -p /softwares/hadoop/tmpcd /softwares/hadoop-2.6.0/etc/hadoopvim core-site.xml<property><name>hadoop.tmp.dir</name><value>/softwares/hadoop/tmp</value><description>Abase for other temporary directories.</description> </property><property><name>fs.defaultFS</name><value>hdfs://Master.Hadoop:9000</value></property><property><name>io.file.buffer.size</name><value>4096</value></property>vim hadoop-env.sh和yarn-env.sh在开头添加如下环境变量cd /softwares/hadoop-2.6.0/etc/hadoopvim hadoop-env.shvim yarn-env.shexport JAVA_HOME=/usr/local/java/jdk1.8.0_112mkdir -p /softwares/hadoop/dfs/namemkdir -p /softwares/hadoop/dfs/datamkdir -p /softwares/hadoop/dfs/name/currentcd /softwares/hadoop-2.6.0/etc/hadoopvim hdfs-site.xml<property><name>.dir</name><value>file:///softwares/hadoop/dfs/name</value> </property><property><name>dfs.datanode.data.dir</name><value>file:///softwares/hadoop/dfs/data</value> </property><property><name>dfs.replication</name><value>2</value></property><property><name>services</name><value>Master.Hadoop:9000</value></property><property><name>node.secondary.http-address</name> <value>Master.Hadoop:50090</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property>cd /softwares/hadoop-2.6.0/etc/hadoopcp mapred-site.xml.template mapred-site.xmlvim mapred-site.xml<property><name></name><value>yarn</value><final>true</final></property><property><name>mapreduce.jobtracker.http.address</name><value>Master.Hadoop:50030</value></property><property><name>mapreduce.jobhistory.address</name><value>Master.Hadoop:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name> <value>Master.Hadoop:19888</value></property><property><name>mapred.job.tracker</name><value>http://Master.Hadoop:9001</value></property>cd /softwares/hadoop-2.6.0/etc/hadoopvim yarn-site.xml<property><name>yarn.resourcemanager.hostname</name><value>Master.Hadoop</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.address</name><value>Master.Hadoop:8042</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>Master.Hadoop:8040</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name> <value>Master.Hadoop:8041</value></property><property><name>yarn.resourcemanager.admin.address</name><value>Master.Hadoop:8043</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>Master.Hadoop:8048</value></property>配置Hadoop的集群cd /softwares/hadoop-2.6.0/etc/hadoopvim slavesSlave1.HadoopSlave2.Hadoop在master上把hadoop 目录的权限交给hadoopsu - rootchown -R hadoop:hadoop /softwares/hadoop-2.6.0chown -R hadoop:hadoop/softwares/hadoop将hadoop-2.6.0整个的copy到另外两台机器上面scp -r /softwares/hadoop-2.6.0 192.168.18.203:/softwares/ scp -r /softwares/hadoop 192.168.18.203:/softwares/scp -r /softwares/hadoop-2.6.0 192.168.18.208:/softwares/ scp -r /softwares/hadoop 192.168.18.208:/softwares/在slave1和slave2上把hadoop 目录的权限交给hadoopchown -R hadoop:hadoop /softwares/hadoop-2.6.0chown -R hadoop:hadoop /softwares/hadoop在master上格式化HDFS 系统su - hadoopcd /softwares/hadoop-2.6.0/bin./hadoop namenode -format启动整个Hadoop集群及其验证在master上su - hadoopcd /softwares/hadoop-2.6.0/sbin./start-dfs.sh./start-yarn.sh或者用下面的./start-all.sh（./stop-all.sh）使用java 的jps 小工具可以看到ResourceManager , NameNode 都启动了：master上【ResourceManager、NameNode】slave1上【DataNode、NodeManager】slave2上【DataNode、NodeManager】如果都运行了，就可以用浏览器查看了http://192.168.18.202:8048/cluster/nodes用./bin/hdfs dfsadmin -report查看状态cd /softwares/hadoop-2.6.0/bin./hdfs dfsadmin -report在系统中使用下面的命令可以看到hadoop 使用的端口：netstat -tnulp | grep java概念说明NamenodeNamenode 管理文件系统的Namespace。

centos下Hadoop配置和使用11

Linux下Hadoop分布式配置和使用秦召红 2011年12月目录介绍 (2)0 集群网络环境介绍 (2)1 /etc/hosts文件配置 (3)2 建立ssh无密码登陆 (3)3 JDK安装和Java环境变量配置 (4)3.1 安装 JDK 1.6 (4)3.2 Java环境变量配置 (4)4 Hadoop集群配置 (4)5 Hadoop集群启动 (6)6 Hadoop使用 (8)6.1 客户机与HDFS进行交互 (9)6.1.1 客户机配置 (9)6.1.2 列出HDFS根目录/下的文件 (9)6.1.3 列出当前用户主目录下的文件 (10)6.1.4 HDFS用户管理 (10)6.1.5 复制本地数据到HDFS中 (10)6.1.6 数据副本说明 (11)6.1.7 hadoop-site.xml参数说明 (11)6.1.8 HDFS中的路径 (12)6.1.8 Hadoop相关命令 (13)6.2 客户机提交作业到集群 (13)6.2.1 客户机配置 (13)6.2.2 一个测试例子WordCount (14)16.2.3 编写Hadoop应用程序并在集群上运行 (14)6.2.4 三种模式下编译运行Hadoop应用程序 (15)6.2.5 提交多个作业到集群 (16)附程序 (17)介绍这是本人在完全分布式环境下在Cent-OS5.6中配置Hadoop-0.20.203.0时的总结文档，但该文档也适合其他版本的Linux系统和目前各版本的Hadoop(Hadoop-0.20之后的版本配置文件hadoop-site.xml被拆分成了三个core-site.xml，hdfs-site.xml和mapred-site.xml，这里会说明0.20后的版本中如何配置这三个文件)。

Hadoop配置建议所有配置文件中使用主机名进行配置，并且机器上应在防火墙中开启相应端口，并设置SSHD服务为开机启动，此外java环境变量可以在/etc/profile中配置。

Hadoop2.6集群配置

#以root用户创建hadoop用户和组创建hadoop用户和组
groupadd hadoop
useradd -g hadoop hadoop
#修改用户密码
passwd hadoop
2.安装配置hadoop集群（nn01上操作）
2.1解压
tar -zxvf hadoop-2.6.4.tar.gz -C /tiandun/
</property>

<property>
<name>node.rpc-address.ns1.nn2</name>
<value>tiandun02:9000</value>
</property>
export JAVA_HOME=/usr/java/jdk1.8.0_71
2.2.2修改core-site.xml
<configuration>

<property>
<name>fs.defaultFS</name>
</property>
</configuration>
2.2.3修改hdfs-site.xml
<configuration>

<property>
<value>hdfs://ns1</value>

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。

Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。

这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。

这里我使用QJM完成。

主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。

通常配置奇数个JournalNode1安装前准备1.1示例机器192.168.0.10 hadoop1192.168.0.20 hadoop2192.168.0.30 hadoop3192.168.0.40 hadoop4每台机器都有一个hadoop用户，密码是hadoop所有机器上安装jdk1.7。

在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。

1.2配置ip与hostname用root用户修改每台机器的hostsVi /etc/hosts添加以下内容：192.168.0.10 hadoop1192.168.0.20 hadoop2192.168.0.30 hadoop3192.168.0.40 hadoop4应用配置source /etc/hosts1.3关闭防火墙切换到管理员su root连接设备，键入命令“service iptables status”查看防火墙状态关闭命令“chkconfig iptables off”，重启后生效。

(完整word版)centos6下安装部署hadoop2.2

centos6下安装部署hadoop2。

2hadoop安装入门版,不带HA，注意理解，不能照抄.照抄肯定出错。

我在安装有centos7（64位）的机器上，使用hadoop2。

5版本，安装验证过，但我没有安装过hadoop2。

2,仅供参考.如果你的(虚拟机)操作系统和JVM/JDK是64位的，就直接安装hadoop 2.5版本,无需按照网上说的去重新编译hadoop，因为它的native库就是64位了；如果你的（虚拟机)操作系统和JVM/JDK是32位的,就直接安装hadoop 2。

4以及之前的版本.安装小技巧和注意事项：1. 利用虚拟机clone的技术。

2. 不要在root用户下安装hadoop，自己先事先建立一个用户。

3。

如果需要方便操作，可以把用户名添加到sudoers文件中，使用sudo命令执行需要root权限的操作。

4。

Linux里面有严格的权限管理，很多事情普通用户做不了，习惯使用windows的同学，需要改变观念。

5。

centos7与之前的版本，在很多命令上有区别，centos与ubuntu有存在很多操作上的差别。

6. Hadoop 2.5版本中的native lib库是64位的，而hadoop 2。

2版本中的native lib库是32位的。

网上教程大多数针对hadoop2。

2写的，如果你是64位的虚拟机，你直接安装Hadoop 2.5版本就行。

7. 确认虚拟机安装并启用了sshd服务后，用xshell客户端连接Linux虚拟机，不要在vmware workstation 里面操作。

用xshell可以非常方便的复制文字和命令等。

学习Hadoop安装的步骤(1)可以先参考网上的资料“虾皮博客”http：//www。

/xia520pi/xia520pi/archive/2012/05/16/2503949.html安装一个hadoop 1.2 版本,熟悉一下，搞明白后,再安装hadoop 2.x版本。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop-2.6.0配置
前面的部分跟配置Hadoop-1.2.1的一样就可以，什么都不用变，完全参考文档1即可。

下面的部分就按照下面的做就可以了。

hadoop-2.6.0的版本用张老师的。

下面的配置Hadoop hadoop-2.6.0的部分
1.修改hadoop-
2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持：
export JAVA_HOME=/usr/java/jdk1.6.0_45
如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。

2.修改hadoop-2.6.0/etc/hadoop/core-site.xml
注意：必须加在<configuration></configuration>节点内
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.6.0/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name></name>
<value>hdfs://master:9000</value>
</property>
</configuration>
3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml
<property>
<name>.dir</name>
<value>/home/hadoop/hadoop-2.6.0/dfs/name</value>
<description>Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/hadoop-2.6.0/dfs/data</value>
<description>Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks.</description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
<description>Host or IP and port of JobTracker.</description>
</property>
5. 修改hadoop-2.
6.0/etc/hadoop/masters
列出所有的master节点：
master
6.修改hadoop-2.6.0/etc/hadoop/slaves
这个是所有datanode的机器，例如：
slave1
slave2
slave3
slave4
7.将master结点上配置好的hadoop文件夹拷贝到所有的slave结点上
以slave1为例：命令如下：
scp -r ~/hadoop-2.6.0slave1:~/
安装完成后，我们要格式化HDFS然后启动集群所有节点。

8.启动Hadoop
1.格式化HDFS文件系统的namenode
（这里要进入hadoop-2.6.0目录来格式化好些）：
cd hadoop-2.6.0 //进入hadoop-2.6.0目录
bin/hdfs namenode -format //格式化
2.启动Hadoop集群
启动hdfs命令如下：
sbin/start-dfs.sh //开启进程
成功的话输入jps会出现如下界面：
补充，关闭hdfs集群的命令如下：
sbin/stop-dfs.sh
我们也可以通过网页来看是否正常安装与配置，地址如下：http://master:50070/或者是http://master:50070/dfshealth.html#tab-overview
下面是运行pi的示例。

Hadoop-2.6.0中是没有示例包的，需要把Hadoop-1.2.1中的hadoop-examples-1.2.1.jar考入到Hadoop-2.6.0目录下。

输入命令：hadoop jar hadoop-examples-1.2.1.jar pi 1 10
运行结果如下：。