Hadoop集群安装步骤

合集下载

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。

本教程由厦门大学数据库实验室出品，转载请注明。

本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。

另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。

为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。

但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。

例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。

环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。

本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。

准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop，并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。

cdh安装hadoop教程

cdh安装hadoop教程CDH（Cloudera's Distribution including Apache Hadoop）是一种基于Apache Hadoop的大数据处理平台，它提供了一套完整的Hadoop生态系统工具和组件。

CDH安装教程一共包含以下几个步骤：1. 系统准备：在开始安装之前，我们需要确保系统满足CDH的最低要求。

CDH要求操作系统为RHEL / CentOS 6或7，并且至少有8GB的内存，2个vCPU，100GB的磁盘空间和64位操作系统。

此外，还需要配置主机名、网络和防火墙设置。

2. JDK安装：CDH依赖于Java运行环境。

首先需要在系统上安装JDK。

可以从Oracle官方网站或OpenJDK获取JDK安装包。

安装JDK后，还需要设置JAVA_HOME环境变量。

3. CDH下载：在安装CDH之前，我们需要从Cloudera官网下载CDH安装包。

Cloudera提供了几个版本，包括CDH4、CDH5和CDH6。

根据需要选择合适的版本下载。

4. 安装CDH：解压CDH安装包，并根据官方文档进行安装。

安装过程中需要指定一个安装目录和一个临时目录，还需要配置Hadoop配置文件如core-site.xml、hdfs-site.xml、yarn-site.xml等。

这些配置文件用于定义Hadoop集群的相关属性，如数据节点、名称节点、资源管理器等。

5. 启动Hadoop集群：完成CDH安装后，我们需要启动Hadoop集群。

首先启动HDFS服务，然后启动YARN服务。

可以使用启动脚本启动Hadoop集群，或者使用Cloudera Manager进行管理。

6. 验证集群状态：一旦Hadoop集群成功启动，我们需要验证集群的状态。

可以通过命令行工具hdfs dfs -ls /或yarn node -list来检查HDFS和YARN的状态。

如果一切正常，应该能够看到节点列表和文件系统的目录。

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。

Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。

准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。

可以使用yum install rsync来安装rsync。

一般来说ssh是默认安装到系统中的。

Jdk1.6的安装方法这里就不多介绍了。

确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。

下面是在linux平台下安装Hadoop的过程：在所有服务器的同一路径下都进行这几步，就完成了集群Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。

集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。

Hadoop的DFS需要确立NameNode与DataNode角色，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。

另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

搭建hadoop集群的步骤

搭建hadoop集群的步骤Hadoop是一个开源的分布式计算平台，用于存储和处理大规模的数据集。

在大数据时代，Hadoop已经成为了处理海量数据的标准工具之一。

在本文中，我们将介绍如何搭建一个Hadoop集群。

步骤一：准备工作在开始搭建Hadoop集群之前，需要进行一些准备工作。

首先，需要选择适合的机器作为集群节点。

通常情况下，需要至少三台机器来搭建一个Hadoop集群。

其次，需要安装Java环境和SSH服务。

最后，需要下载Hadoop的二进制安装包。

步骤二：配置Hadoop环境在准备工作完成之后，需要对Hadoop环境进行配置。

首先，需要编辑Hadoop的配置文件，包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。

其中，core-site.xml用于配置Hadoop的核心参数，hdfs-site.xml用于配置Hadoop分布式文件系统的参数，mapred-site.xml用于配置Hadoop的MapReduce参数，yarn-site.xml用于配置Hadoop的资源管理器参数。

其次，需要在每个节点上创建一个hadoop用户，并设置其密码。

最后，需要在每个节点上配置SSH免密码登录，以便于节点之间的通信。

步骤三：启动Hadoop集群在完成Hadoop环境的配置之后，可以启动Hadoop集群。

首先，需要启动Hadoop的NameNode和DataNode服务。

NameNode是Hadoop分布式文件系统的管理节点，负责管理文件系统的元数据。

DataNode是Hadoop分布式文件系统的存储节点，负责实际存储数据。

其次，需要启动Hadoop的ResourceManager和NodeManager服务。

ResourceManager 是Hadoop的资源管理器，负责管理集群中的资源。

NodeManager是Hadoop的节点管理器，负责管理每个节点的资源。

Hadoop 搭建

实验报告
（与程序设计有关）
课程名称：云计算技术提高
实验题目：Hadoop搭建
Xx xx：0000000000
x x:xx
x x：
xxxx
2021年5月21日
实验目的及要求：
开源分布式计算架构Hadoop的搭建
软硬件环境：
Vmware一台计算机
算法或原理分析（实验内容）：
Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台，使用Java语言开发，具有很好的跨平台性，可以运行在商用（廉价）硬件上，用户无需了解分布式底层细节，就可以开发分布式程序，充分使用集群的高速计算和存储。
三．Hadoop的安装
1.安装并配置环境变量
进入官网进行下载hadoop-2.7.5, 将压缩包在/usr目录下解压利用tar -zxvf Hadoop-2.7.5.tar.gz命令。同样进入 vi /etc/profile 文件，设置相应的HADOOP_HOME、PATH在hadoop相应的绝对路径。
4.建立ssh无密码访问
二．JDK安装
1.下载JDK
利用yum list java-1.8*查看镜像列表；并利用yum install java-1.8.0-openjdk* -y安装
2.配置环境变量
利用vi /etc/profile文件配置环境，设置相应的JAVA_HOME、JRE_HOME、PATH、CLASSPATH的绝对路径。退出后，使用source /etc/profile使环境变量生效。利用java -version可以测试安装是否成功。
3.关闭防火墙并设置时间同步
通过命令firewall-cmd–state查看防火墙运行状态；利用systemctl stop firewalld.service关闭防火墙；最后使用systemctl disable firewalld.service禁止自启。利用yum install ntp下载相关组件，利用date命令测试

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

Hadoop集群搭建步骤

Hadoop集群搭建步骤1.先建⽴⼀台虚拟机，分配内存2G,硬盘20G，⽹络为nat 模式，设置⼀个静态的ip 地址: 例如设定3台机器的ip 为192.168.63.167（master） 192.16863.168(slave1) 192.168.63.169 (slave2)2.修改第⼀台主机的⽤户名3.复制master⽂件两次，重命名为slave1和slave2，打开虚拟机⽂件，然后按照同样的⽅法设置两个节点的ip和主机名4.建⽴主机名和ip的映射5.查看是否能ping通,关闭防⽕墙和selinux 配置6.配置ssh免密码登录在root⽤户下输⼊ssh-keygen -t rsa ⼀路回车秘钥⽣成后在~/.ssh/⽬录下，有两个⽂件id_rsa(私钥)和id_rsa.pub（公钥），将公钥复制到authorized_keys并赋予authorized_keys600权限同理在slave1和slave2节点上进⾏相同的操作，然后将公钥复制到master节点上的authoized_keys检查是否免密登录（第⼀次登录会有提⽰）7..安装JDK（省去）三个节点安装java并配置java环境变量8.安装MySQL（master 节点省去）9.安装SecureCRT或者xshell 客户端⼯具，然后分别链接上 3台服务器12.搭建集群12.1 集群结构三个结点：⼀个主节点master两个从节点内存2GB 磁盘20GB12.2 新建hadoop⽤户及其⽤户组⽤adduser新建⽤户并设置密码将新建的hadoop⽤户添加到hadoop⽤户组前⾯hadoop指的是⽤户组名，后⼀个指的是⽤户名赋予hadoop⽤户root权限12.3 安装hadoop并配置环境变量由于hadoop集群需要在每⼀个节点上进⾏相同的配置，因此先在master节点上配置，然后再复制到其他节点上即可。

将hadoop包放在/usr/⽬录下并解压配置环境变量在/etc/profile⽂件中添加如下命令12.4 搭建集群的准备⼯作在master节点上创建以下⽂件夹/usr/hadoop-2.6.5/dfs/name/usr/hadoop-2.6.5/dfs/data/usr/hadoop-2.6.5/temp12.5 配置hadoop⽂件接下来配置/usr/hadoop-2.6.5/etc//hadoop/⽬录下的七个⽂件slaves core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml hadoop-env.sh yarn-env.sh配置hadoop-env.sh配置yarn-env.sh配置slaves⽂件，删除localhost配置core-site.xml配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml将配置好的hadoop⽂件复制到其他节点上12.6 运⾏hadoop格式化Namenodesource /etc/profile13. 启动集群。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop集群安装步骤首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。

Hadoop在windows下还未经过很好的测试，所以推荐大家在linux（cent os 6.X）下安装使用。

准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。

可以使用yum install rsync来安装rsync。

一般来说ssh是默认安装到系统中的。

Jdk1.6的安装方法下载linux版本的java，#mkdir /usr/java#cd /usr/java#chmod a+x jdk-6u27-linux-i586.bin#./jdk-6u27-linux-i586.bin安装完成后，设臵环境变量：在etc/profile中设臵#export JAVA_HOME=/usr/java/jdk1.6.0_27#exportCLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOM E/lib/tools.jar#export PATH=$PATH:$JAVA_HOME/bin设臵完成后，使用reboot或者source /etc/profile确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.141、192.168.1.142和192.168.1.143（下文简称141，142和143），且都使用root用户。

这里有一点需要强调的就是，务必要确保每台机器的主机名和IP地址之间能正确解析。

Host配臵一个很简单的测试办法就是ping一下主机名，比如在ww-1上ping ww-2，如果能ping通就OK！若不能正确解析，可以修改/etc/hosts文件，如果该台机器作Namenode用，则需要在hosts文件中加上集群中所有机器的IP地址及其对应的主机名；如果该台机器作Datanode用，则只需要在hosts文件中加上本机IP 地址和Namenode机器的IP地址。

以本文为例，dbrg-1中的/etc/hosts文件看起来就应该是这样的：127.0.0.1localhostlocalhost192.168.0.141ww-1 ww-1192.168.0.142ww-2 ww-2192.168.0.143ww-3 ww-3ww-2中的/etc/hosts文件看起来就应该是这样的：127.0.0.0 localhostlocalhost192.168.0.141 ww-1 ww-1192.168.0.143 ww-3ww-3下面是在centos6平台下安装Hadoop的过程：在usr下建立hadoop文件夹，将hadoop下载文件解压。

在etc/profile文件中设臵环境变量：export HADOOP_HOME=/home/ww/hadoop.020.204.0/hadoop解压至hadoop.020.204.0中，为了方便以后升级，建议建立一个链接指向要使用的hadoop版本，不妨设为hadoop[ww@ww-1: hadoop.020.204.0]$ln -s hadoop.020.204.0 hadoop这样一来，所有的配臵文件都在/hadoop.020.204.0/conf/目录中，所有执行程序都在/ hadoop.020.204.0/bin目录中。

但是由于上述目录中hadoop.020.204.0的配臵文件和hadoop.020.204.0的安装目录是放在一起的，这样一旦日后升级hadoop版本的时候所有的配臵文件都会被覆盖，因此建议将配臵文件与安装目录分离，一种比较好的方法就是建立一个存放配臵文件的目录，/home/ww/ hadoop.020.204.0/hadoop-config/，然后将/hadoop.020.204.0/conf/目录中的hadoop_site.xml，slaves，hadoop_env.sh三个文件拷贝到hadoop-config/目录中(这个问题很奇怪，在官网上的Getting Started With Hadoop中说是只需要拷贝这个三个文件到自己创建的目录就可以了，但我在实际配臵的时候发现还必须把masters这个文件也拷贝到hadoop-conf/目录中才行，不然启动Hadoop的时候就会报错说找不到masters这个文件)，并指定环境变量$HADOOP_CONF_DIR指向该目录。

环境变量在/home/dbrg/.bashrc和/etc/profile中设定。

综上所述，为了方便以后升级版本，我们需要做到配臵文件与安装目录分离，并通过设定一个指向我们要使用的版本的hadoop的链接，这样可以减少我们对配臵文件的维护。

(不是必要)集群配臵在这里我们使用141作为NameNode与JobTracker，其它两台机器作为DataNode和TaskTracker，具体的配臵如下：环境的配臵在$HADOOP_HOME/conf/hadoop-env.sh中定义了Hadoop启动时需要的环境变量设臵，其中我们至少需要配臵JAVA_HOME（Jdk的路径）变量；另外我们一般还需要更改HADOOP_LOG_DIR（Hadoop的日志路径）这个变量，默认的设臵是“export HADOOP_LOG_DIR=${HADOOP_HOME}/logs”，一般需要将其配臵到一个磁盘空间比较大的目录下。

(不是必要)Hadoop核心程序配臵Hadoop 包括一组默认配臵文件（$HADOOP_HOME/src目录下的core/core-default.xml, hdfs/hdfs-default.xml 和mapred/mapred-default.xml）。

虽然默认配臵文件能让Hadoop核心程序顺利启动，一般需要自己来设臵一些常规配臵以满足开发和业务的需求，所以我们需要对默认配臵文件的值进行覆盖，具体方法如下。

$HADOOP_HOME/conf/core-site.xml是Hadoop的核心配臵文件，对应并覆盖core-default.xml中的配臵项。

我们一般在这个文件中增加如下配臵：Core-site.xml代码<configuration><property><name></name><value>hdfs://192.168.1.141:9000</value></property></configuration>$HADOOP_HOME/conf/hdfs-site.xml是HDFS的配臵文件，对应并覆盖hdfs-default.xml中的配臵项。

我们一般在这个文件中增加如下配臵：<configuration><property><name>.dir</name><value>/opt/hadoop/data/.dir</value></property><property><name>dfs.data.dir</name><value>/opt/hadoop/data/dfs.data.dir</value></property>（不添加）<property><name>dfs.permissions</name><value>false</value></property></configuration>$HADOOP_HOME/conf/mapred-site.xml是Map/Reduce的配臵文件，对应并覆盖mapred-default.xml中的配臵项。

我们一般在这个文件中增加如下配臵：<configuration><property><name>mapred.job.tracker</name><value>192.168.1.141:9001</value></property><property><name>mapred.system.dir</name><value>/system/mapred.system.dir</value></property><property><name>mapred.local.dir</name><value>/opt/hadoop/data/mapred.local.dir</value></property>（不添加）</configuration>主从配臵在$HADOOP_HOME/conf目录中存在masters和slaves这两个文件，用来做Hadoop的主从配臵。

上面已经提到了Hadoop主要由NameNode/DataNode 和JobTracker/TaskTracker构成，在主从配臵里我们一般将NameNode和JobTracker列为主机，其它的共为从机，于是对于此处的配臵应该是：Masters代码192.168.1.141Slaves代码192.168.1.142192.168.1.143如果你对以上介绍的配臵项做了正确的配臵，那么你的Hadoop集群只差启动和初体念了，当然，在$HADOOP_HOME/conf目录下还包括其它的一些配臵文件，但那些都不是必须设臵的，如果有兴趣你可以自己去了解了解。