Ubuntu14.04安装配置Hadoop2.6.0集群

合集下载

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。

本教程由厦门大学数据库实验室出品，转载请注明。

本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。

另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。

为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。

但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。

例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。

环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。

本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。

准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop，并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。

集群的配置步骤

集群的配置步骤一、搭建集群环境的准备工作在开始配置集群之前，我们需要先进行一些准备工作。

首先，确保所有服务器都已经正确连接到网络，并且能够相互通信。

其次，确保每台服务器上已经安装了操作系统，并且操作系统版本一致。

最后，确保每台服务器上已经安装了必要的软件和工具，例如SSH、Java等。

二、创建集群的主节点1.选择一台服务器作为集群的主节点，将其IP地址记录下来。

2.登录到主节点服务器上，安装并配置集群管理软件，例如Hadoop、Kubernetes等。

3.根据集群管理软件的要求，配置主节点的相关参数，例如集群名称、端口号等。

4.启动集群管理软件，确保主节点能够正常运行。

三、添加集群的工作节点1.选择一台或多台服务器作为集群的工作节点，将其IP地址记录下来。

2.登录到工作节点服务器上，安装并配置集群管理软件，确保与主节点的版本一致。

3.根据集群管理软件的要求，配置工作节点的相关参数，例如主节点的IP地址、端口号等。

4.启动集群管理软件，确保工作节点能够正常连接到主节点。

四、测试集群的连接和通信1.在主节点服务器上，使用集群管理软件提供的命令行工具，测试与工作节点的连接和通信。

例如，可以使用Hadoop的hdfs命令测试与工作节点的文件系统的连接。

2.确保主节点能够正确访问工作节点的资源，并且能够将任务分配给工作节点进行处理。

五、配置集群的资源管理1.根据集群管理软件的要求，配置集群的资源管理策略。

例如，可以设置工作节点的CPU和内存的分配比例，以及任务的调度算法等。

2.确保集群能够合理分配资源，并且能够根据需要动态调整资源的分配。

六、监控和管理集群1.安装并配置集群的监控和管理工具，例如Ganglia、Zabbix等。

2.确保监控和管理工具能够正常运行，并能够及时发现和处理集群中的故障和问题。

3.定期对集群进行巡检和维护，确保集群的稳定和可靠性。

七、优化集群的性能1.根据实际情况，对集群的各项参数进行调优，以提高集群的性能和效率。

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。

Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。

这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。

这里我使用QJM完成。

主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。

通常配置奇数个JournalNode1安装前准备1.1示例机器192.168.0.10 hadoop1192.168.0.20 hadoop2192.168.0.30 hadoop3192.168.0.40 hadoop4每台机器都有一个hadoop用户，密码是hadoop所有机器上安装jdk1.7。

在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。

1.2配置ip与hostname用root用户修改每台机器的hostsVi /etc/hosts添加以下内容：192.168.0.10 hadoop1192.168.0.20 hadoop2192.168.0.30 hadoop3192.168.0.40 hadoop4应用配置source /etc/hosts1.3关闭防火墙切换到管理员su root连接设备，键入命令“service iptables status”查看防火墙状态关闭命令“chkconfig iptables off”，重启后生效。

在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04

在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04注：该教程转⾃厦门⼤学⼤数据课程学习总结装好了 Ubuntu 系统之后，在安装 Hadoop 前还需要做⼀些必备⼯作。

创建hadoop⽤户如果你安装 Ubuntu 的时候不是⽤的 “hadoop” ⽤户，那么需要增加⼀个名为 hadoop 的⽤户。

⾸先按 ctrl+alt+t 打开终端窗⼝，输⼊如下命令创建新⽤户 : sudo useradd -m hadoop -s /bin/bash这条命令创建了可以登陆的 hadoop ⽤户，并使⽤ /bin/bash 作为 shell。

sudo命令本⽂中会⼤量使⽤到sudo命令。

sudo是ubuntu中⼀种权限管理机制，管理员可以授权给⼀些普通⽤户去执⾏⼀些需要root权限执⾏的操作。

当使⽤sudo命令时，就需要输⼊您当前⽤户的密码.密码在Linux的终端中输⼊密码，终端是不会显⽰任何你当前输⼊的密码，也不会提⽰你已经输⼊了多少字符密码。

⽽在windows系统中,输⼊密码⼀般都会以“*”表⽰你输⼊的密码字符接着使⽤如下命令设置密码，可简单设置为 hadoop，按提⽰输⼊两次密码： sudo passwd hadoop可为 hadoop ⽤户增加管理员权限，⽅便部署，避免⼀些对新⼿来说⽐较棘⼿的权限问题： sudo adduser hadoop sudo最后注销当前⽤户（点击屏幕右上⾓的齿轮，选择注销），返回登陆界⾯。

在登陆界⾯中选择刚创建的 hadoop ⽤户进⾏登陆。

更新apt⽤ hadoop ⽤户登录后，我们先更新⼀下 apt，后续我们使⽤ apt 安装软件，如果没更新可能有⼀些软件安装不了。

按 ctrl+alt+t 打开终端窗⼝，执⾏如下命令： sudo apt-get update后续需要更改⼀些配置⽂件，我⽐较喜欢⽤的是 vim（vi增强版，基本⽤法相同） sudo apt-get install vim安装SSH、配置SSH⽆密码登陆集群、单节点模式都需要⽤到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上⾯运⾏命令），Ubuntu 默认已安装了SSH client，此外还需要安装 SSH server： sudo apt-get install openssh-server安装后，配置SSH⽆密码登陆利⽤ ssh-keygen ⽣成密钥，并将密钥加⼊到授权中： exit # 退出刚才的 ssh localhost cd ~/.ssh/ # 若没有该⽬录，请先执⾏⼀次ssh localhost ssh-keygen -t rsa # 会有提⽰，都按回车就可以 cat ./id_rsa.pub >> ./authorized_keys # 加⼊授权此时再⽤ssh localhost命令，⽆需输⼊密码就可以直接登陆了。

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。

Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。

准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。

可以使用yum install rsync来安装rsync。

一般来说ssh是默认安装到系统中的。

Jdk1.6的安装方法这里就不多介绍了。

确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。

下面是在linux平台下安装Hadoop的过程：在所有服务器的同一路径下都进行这几步，就完成了集群Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。

集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。

Hadoop的DFS需要确立NameNode与DataNode角色，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。

另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

搭建hadoop集群的步骤

搭建hadoop集群的步骤Hadoop是一个开源的分布式计算平台，用于存储和处理大规模的数据集。

在大数据时代，Hadoop已经成为了处理海量数据的标准工具之一。

在本文中，我们将介绍如何搭建一个Hadoop集群。

步骤一：准备工作在开始搭建Hadoop集群之前，需要进行一些准备工作。

首先，需要选择适合的机器作为集群节点。

通常情况下，需要至少三台机器来搭建一个Hadoop集群。

其次，需要安装Java环境和SSH服务。

最后，需要下载Hadoop的二进制安装包。

步骤二：配置Hadoop环境在准备工作完成之后，需要对Hadoop环境进行配置。

首先，需要编辑Hadoop的配置文件，包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。

其中，core-site.xml用于配置Hadoop的核心参数，hdfs-site.xml用于配置Hadoop分布式文件系统的参数，mapred-site.xml用于配置Hadoop的MapReduce参数，yarn-site.xml用于配置Hadoop的资源管理器参数。

其次，需要在每个节点上创建一个hadoop用户，并设置其密码。

最后，需要在每个节点上配置SSH免密码登录，以便于节点之间的通信。

步骤三：启动Hadoop集群在完成Hadoop环境的配置之后，可以启动Hadoop集群。

首先，需要启动Hadoop的NameNode和DataNode服务。

NameNode是Hadoop分布式文件系统的管理节点，负责管理文件系统的元数据。

DataNode是Hadoop分布式文件系统的存储节点，负责实际存储数据。

其次，需要启动Hadoop的ResourceManager和NodeManager服务。

ResourceManager 是Hadoop的资源管理器，负责管理集群中的资源。

NodeManager是Hadoop的节点管理器，负责管理每个节点的资源。

无人值守网络安装ubuntu-14.04

d-i netcfg/get_hostname string username
d-i netcfg/get_domain string username
# Disable that annoying WEP key dialog.
d-i netcfg/wireless_wep string
# The wacky dhcp hostname that some ISPs use as a password of sorts.
#d-i debian-installer/locale string en_GB.UTF-8
# Optionally specify additional locales to be generated.
#d-i localechooser/supported-locales en_US.UTF-8, nl_NL.UTF-8
# configuration below.
#d-i netcfg/dhcp_failed note
#d-i netcfg/dhcp_options select Configure network manually
# Static network configuration.
d-i netcfg/get_nameservers string 192.168.16.1
# warning and long timeouts are a nuisance.
#d-i netcfg/enable boolean false
# netcfg will choose an interface that has link if possible. This makes it
# skip displaying a list if there is more than one interface.

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ubuntu14.04安装配置Hadoop2.6.0（完全分布式）与wordcount实例运行日期：2016-06-12 作者：朝阳沐歌我的环境是：Ubuntu14.04+Hadoop2.6.0+JDK1.8.0_77官网2.6.0的安装教程：/docs/r2.6.0/hadoop-pro ject-dist/hadoop-common/SingleCluster.html为了方面配置，我在每台机器上都使用了hadoop用户来操作，这样做的确够方便。

结点信息：(分布式集群架构：master为主节点，其余为从节点)1.JDK的安装首先Hadoop运行需要Java的支持，所以必须在集群中所有的节点安装JDK，在Ubuntu 14.04下安装jdk-8u77-linux-x64.tar.gz总的原则：将jdk-8u77-linux-x64.tar.gz压缩包解压至/usr/lib/jdk，设置jdk环境变量并将其修改为系统默认的jdk1.将jdk-8u77-linux-x64.tar.gz拷贝到/usr/lib/jdk/目录下面，这里如果没有jdk文件夹，则创建该文件夹,命令:sudo mkdir jdk //创建文件夹jdksudo cp -r ~/download/jdk-8u77-linux-x64.tar.gz /usr/lib/jdk/ //把下载的文件拷贝到新创建的目录下面sudo tar -zvxf jdk-8u77-linux-x64.tar.gz //解压缩文件2.设置环境变量，用gedit打开/etc/profile文件sudo gedit /etc/profile在文件的最后面增加：export JAVA_HOME=/usr/lib/jdk/jdk1.7.0_10export JRE_HOME=/usr/lib/jdk/jdk1.7.0_10/jreexport PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATHexport CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib3.将系统默认的jdk修改过来$ sudo update-alternatives --install /usr/bin/java java /usr/lib/jdk/jdk1.7.0_10/bin/java 300$ sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jdk/jdk1.7.0_10/bin/javac 300$ sudo update-alternatives --config java$ sudo update-alternatives --config javac4.检测，输入java -versionjava version "1.8.0_77"Java(TM) SE Runtime Environment (build 1.8.0_77-b03)Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)2.配置hosts文件修改集群中所有机器的/etc/hosts，打开该文件的命令如下：sudo gedit /etc/hosts添加：192.168.188.10 master192.168.188.11 slave1192.168.188.12 slave2192.168.188.13 slave3如图所示：注意：这里的master、slave1、slave2等等，指的是机器的机器名（使用命令hostname可以查看本机的机器名），切记，如果不是机器名的话会出问题的，并且集群中所有结点的机器名都应该不一样。

3.SSH无密码登录修改本机(master)和子节点(slaveN)机器名：打开/etc/hostname文件sudo gedit /etc/hostname(修改后需重启才能生效)修改host文件（映射各个节点IP）：sudo gedit /etc/hosts在后面添加内容为：192.168.188.10 master192.168.188.11 slave1192.168.188.12 slave2192.168.188.13 slave3（注意修改为本机IP）（master、slave1、slave2分别是主节点和子节点的机器名，即hostname里的内容）为主节点(master)和子节点(slave)分别创建hadoop用户和用户组：先创建hadoop用户组：sudo addgroup hadoop然后创建hadoop用户：sudo adduser -ingroup hadoop hadoop（第一个hadoop是hadoop用户组，第二个hadoop指用户名）给hadoop用户赋予root用户同样的权限，打开/etc/sudoers文件（目的：给h adoop用户sudo权限）sudo gedit /etc/sudoers在root ALL=(ALL:ALL) ALL这一行下添加hadoop ALL=(ALL:ALL) ALL本机(master)和子节点(slave)安装ssh服务：sudo apt-get updatesudo apt-get upgradesudo apt-get install ssh openssh-server建立ssh无密码登录环境：进入新建立的hadoop用户，建议注销当前用户，然后选择hadoop用户ssh生成密钥有rsa和dsa两种生成方式，默认情况下采用rsa方式创建ssh-key，这里我们采用rsa方式，在终端/home/hadoop目录下输入：ssh-keygen -t rsa -P ""（有确认信息直接回车）进入~/.ssh/目录下：cd /home/hadoop/.ssh将此目录下的id_rsa.pub追加到authorized_keys授权文件中：cat id_rsa.pub >> authorized_keys将master节点上的rsa.pub通过ssh传到子节点上（目的：公用公钥密钥）X 代表第n个结点scp ~/.ssh/id_rsa.pub hadoop @slaveX:~/.ssh/进入~/.ssh/目录下，将id_rsa.pub追加到authorized_keys授权文件中cd /home/hadoop/.sshcat id_rsa.pub >> authorized_keys测试ssh互信是否建立ssh hadoop@slave1(如果不需要输入密码就可以登录成功则表示ssh互信已经建立)4.Hadoop的安装与配置(1).下载解压Hadoop稳定版我用的是hadoop-2.6.0，下载地址：/apache/had oop/common/stable/将下载后的Hadoop 拷贝到hadoop目录下，解压到master服务器的/hadoop目录下（配置好master结点后再将其复制到其它的服务器上，一般来说，群集中所有的hadoop都安装在同一目录下）：解压命令如下：tar-xzfv hadoop-2.6.0.tar.gz（2）.配置Hadoop1.修改hadoop-2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持：export JAVA_HOME=/usr/java/jdk1.8.0_77如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。

2.修改hadoop-2.6.0/etc/hadoop/core-site.xml注意：必须加在<configuration></configuration>节点内<configuration><property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.6.0/tmp</value><description>Abase for other temporary directories.</desc ription></property><property><name></name><value>hdfs://master:9000</value></property></configuration>3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml<property><name>.dir</name><value>/home/hadoop/hadoop-2.6.0/dfs/name</value><description>Path on the local filesystem where the NameNode st ores the namespace and transactions logs persistently.</description> </property><property><name>dfs.data.dir</name><value>/home/hadoop/hadoop-2.6.0/dfs/data</value><description>Comma separated list of paths on the local filesys tem of a DataNode where it should store its blocks.</description></property><property><name>dfs.replication</name><value>1</value></property>4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml<property><name>mapred.job.tracker</name><value>master:9001</value><description>Host or IP and port of JobTracker.</description> </property>5. 修改hadoop-2.6.0/etc/hadoop/masters列出所有的master节点：master6.修改hadoop-2.6.0/etc/hadoop/slaves这个是所有datanode的机器，例如：slave1slave2slave3slave47.将master结点上配置好的hadoop文件夹拷贝到所有的slave结点上以slave1为例：命令如下：scp -r ~/hadoop-2.6.0 hadoop@slave1:~/安装完成后，我们要格式化HDFS然后启动集群所有节点。