hadoop0.20.2集群配置

合集下载

Hadoop集群配置详细

Linux系统配置
7安装JDK 将JDK文件解压，放到/usr/java目录下 cd /home/dhx/software/jdk mkdir /usr/java mv jdk1.6.0_45.zip /usr/java/
cd /usr/java
unzip jdk1.6.0_45.zip
从当前用户切换root用户的命令如下：编辑主机名列表的命令
从当前用户切换root用户的命令如下：
Linux系统配置
操作步骤需要在HadoopMaster和HadoopSlave节点
上分别完整操作，都是用root用户。从当前用户切换root用户的命令如下：
su root
从当前用户切换root用户的命令如下：
Linux系统配置
1拷贝软件包和数据包 mv ~/Desktop/software ~/
环境变量文件中，只需要配置JDK的路径
gedit conf/hadoop-env.sh
从当前用户切换root用户的命令如下：编辑主机名列表的命令
Hadoop配置部署
3配置核心组件core-site.xml
gedit conf/core-site.xml
<configuration> <property> <name></name> /*2.0后用 fs.defaultFS代替*/ <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/dhx/hadoopdata</value> </property> </configuration>

Hadoop平台配置总结

Hadoop平台配置总结hadoop的配置，个⼈感觉是⾮常容易出问题。

⼀个原因是要配置的地⽅多，还有个原因就是集群配置要在⼏台机器上都配置正确，才能保证配置好hadoop，跑起任务。

经过昨晚加今天上午的折腾，总算成功配好了集群模式，其中苦不堪⾔啊，中间好⼏次都想要放弃。

这⾥总结了⼀下配置的⼏个要点，分享给⼤家，以使⼤家少⾛冤枉路。

1.基本配置安装JDK1.6（这是必须的吧，⽆须解释）下载Hadoop包下载后放在⽤户主⽬录下解压配置JAVA_HOME路径conf/hadoop-env.sh将# The java implementation to use. Required.# export JAVA_HOME=/usr/lib/j2sdk1.5-sun改为# The java implementation to use. Required.export JAVA_HOME=/usr/lib/jvm/java-6-openjdk（这⾥的java具体⽬录可能会有所不同）保存并关闭输⼊以下命令：$ bin/hadoop如果能看到hadoop的程序调⽤的使⽤说明，此时说明你已经成功配置好了这部分。

（单机模式）2.集群模式配置配置好了单机模式后，即可配置集群模式。

集群模式的结构是⼀台master机器+若⼲台slave机器。

（1）编辑/etc/hosts⽂件（master,slave都要）：假设master机器：IP：192.168.0.1 机器名：master假设slaves机器：IP：192.168.0.2 机器名：slave1IP：192.168.0.3 机器名：slave2IP：192.168.0.4 机器名：slave3IP：192.168.0.5 机器名：slave4加⼊如下项：# /etc/hosts192.168.0.1 master192.168.0.2 slave1192.168.0.3 slave2192.168.0.4 slave3192.168.0.5 slave4注意：这⾥的”master“和”slave1“等等均指你的机器名，如在终端中有ubuntu@DY1-U09:~/hadoop$，则DY1-U09为机器名。

Hadoop集群配置详细解读

从当前用户切换root用户的命令如下：
Linux系统配置
操作步骤需要在HadoopMaster和HadoopSlave节点
上分别完整操作，都是用root用户。从当前用户切换root用户的命令如下：
su root
从当前用户切换root用户的命令如下：
Linux系统配置
1拷贝软件包和数据包 mv ~/Desktop/software ~/
所有的操作都是用自定义用户（dhx）
su dhx
Hadoop安装包解压
cp hadoop-1.2.1.tar.gz ~/
cd
tar -zxvf hadoop-1.2.1.tar.gz
cd hadoop-1.2.1
从当前用户切换root用户的命令如下：编辑主机名列表的命令
Hadoop集群配置手册（详细）太原理工大学邓红霞
提纲
启动两台虚拟客户机
Linux系统配置 Hadoop配置部署启动Hadoop集群 HDFS下的文件操作 Eclipse在Hadoop中的使用及配置
启动两台虚拟客户机
打开VMware Workstation10，打开已经安装好的虚拟机HadoopMaster和HadoopSlave 。如果之前没有打开过两个虚拟机，请使用文件 ->打开选项，选择之前的虚拟安装包。
Linux系统配置
6配置hosts列表编辑主机名列表的命令，并添加如下两行到文件 gedit /etc/hosts 192.168.58.128 master 192.168.58.129 slave ping master ping slave
从当前用户切换root用户的命令如下：编辑主机名列表的命令

hadoop集群配置

集群上部署HADOOP，构建HDFS（1）分布式计算开源框架Hadoop入门实践其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了，不过这里既然写了就再多写一点，同时有一些细节需要注意的也说明一下，其实也就是这些细节会让人摸索半天。

Hadoop可以单机跑，也可以配置集群跑，单机跑就不需要多说了，只需要按照Demo的运行说明直接执行命令即可。

这里主要重点说一下集群配置运行的过程。

1环境7台普通的机器，操作系统都是Linux。

内存和CPU就不说了，反正Hadoop一大特点就是机器在多不在精。

JDK必须是1.5以上的，这个切记。

7台机器的机器名务必不同，后续会谈到机器名对于MapReduce有很大的影响。

2部署考虑正如上面我描述的，对于Hadoop的集群来说，可以分成两大类角色：Master和Slave，前者主要配置NameNode和JobTracker的角色，负责总管分布式数据和分解任务的执行，后者配置DataNode和TaskTracker的角色，负责分布式数据存储以及任务的执行。

本来我打算看看一台机器是否可以配置成Master，同时也作为Slave使用，不过发现在NameNode初始化的过程中以及TaskTracker执行过程中机器名配置好像有冲突（NameNode和TaskTracker对于Hosts的配置有些冲突，究竟是把机器名对应IP放在配置前面还是把Localhost对应IP放在前面有点问题，不过可能也是我自己的问题吧，这个大家可以根据实施情况给我反馈）。

最后反正决定一台Master，六台Slave，后续复杂的应用开发和测试结果的比对会增加机器配置。

3实施步骤1.在所有的机器上都建立相同的目录，也可以就建立相同的用户，以该用户的home路径来做hadoop的安装路径。

例如我在所有的机器上都建立了/home/wenchu。

2.下载Hadoop，先解压到Master上。

这里我是下载的0.17.1的版本。

搭建hadoop集群的步骤

搭建hadoop集群的步骤Hadoop是一个开源的分布式计算平台，用于存储和处理大规模的数据集。

在大数据时代，Hadoop已经成为了处理海量数据的标准工具之一。

在本文中，我们将介绍如何搭建一个Hadoop集群。

步骤一：准备工作在开始搭建Hadoop集群之前，需要进行一些准备工作。

首先，需要选择适合的机器作为集群节点。

通常情况下，需要至少三台机器来搭建一个Hadoop集群。

其次，需要安装Java环境和SSH服务。

最后，需要下载Hadoop的二进制安装包。

步骤二：配置Hadoop环境在准备工作完成之后，需要对Hadoop环境进行配置。

首先，需要编辑Hadoop的配置文件，包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。

其中，core-site.xml用于配置Hadoop的核心参数，hdfs-site.xml用于配置Hadoop分布式文件系统的参数，mapred-site.xml用于配置Hadoop的MapReduce参数，yarn-site.xml用于配置Hadoop的资源管理器参数。

其次，需要在每个节点上创建一个hadoop用户，并设置其密码。

最后，需要在每个节点上配置SSH免密码登录，以便于节点之间的通信。

步骤三：启动Hadoop集群在完成Hadoop环境的配置之后，可以启动Hadoop集群。

首先，需要启动Hadoop的NameNode和DataNode服务。

NameNode是Hadoop分布式文件系统的管理节点，负责管理文件系统的元数据。

DataNode是Hadoop分布式文件系统的存储节点，负责实际存储数据。

其次，需要启动Hadoop的ResourceManager和NodeManager服务。

ResourceManager 是Hadoop的资源管理器，负责管理集群中的资源。

NodeManager是Hadoop的节点管理器，负责管理每个节点的资源。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

Hadoop详细配置

Hadoop详细配置⽬录第1章概要说明41.1 Hadoop是什么?41.2 为什么选择CDH版本?41.3 集群配置环境41.4 ⽹络结构图5第2章安装hadoop环境62.1 准备安装包62.2 默认⽤户组root:root62.3 卸载⾃带的jdk62.4 安装和配置jdk环境62.5 配置/etc/hosts62.6 配置ssh⽆密码登陆72.7 处理防⽕墙72.8 将hadoop-2.0.0-cdh4.2.0.zip上传到/opt，并解压缩92.9 编辑core-site.xml⽂件92.10 编辑hdfs-site.xml⽂件92.11 编辑slaves⽂件102.12 编辑mapred-site.xml⽂件102.13 编辑yarn-site.xml⽂件112.14 编辑.bashrc⽂件132.15 将master01机上的/opt/hadoop拷贝到其他机器上142.16 第⼀次启动hadoop需要先格式化NameNode142.17 在master01机上启动hdfs：142.18 在master01机上启动mapreduce,historyserver142.19 查看master01机的MapReduce152.20 查看slave01,slave02的节点152.21 检查各台机器的集群进程152.22 关闭服务15第3章 Zookeeper安装163.1 准备安装包163.2 解压163.3 修改zoo.cfg⽂件163.4 修改环境变量173.5 创建data⽂件夹及修改myid⽂件173.6 将⽂件复制⾄其他机器173.7 启动183.8 检查是否成功183.9 停⽌服务183.10 参考⽂档18第4章 Hive的安装194.1 准备安装包194.2 准备机器194.3 访问mysql194.4 配置hive-site.xml⽂件，将meta信息保存在mysql⾥194.5 将mysql-connector-java-5.1.18.tar.gz解压224.6 Mysql的⼀些操作224.7 查看⽇志记录224.8 Hive导⼊本地数据命令22第5章 Hive+Thrift+PHP整合235.1 准备安装包235.2 编辑代码235.3 启动hiveserver245.4 查看默认开启的10000端⼝245.5 测试245.6 出错提⽰及解决办法24第6章 sqoop安装使⽤256.1 准备安装包256.2 前提⼯作256.3 安装256.4 放置mysql驱动包256.5 修改configure-sqoop⽂件256.6 将路径加⼊PATH256.7 使⽤测试266.8 出错提⽰及解决办法276.9 参考27第1章概要说明1.1 Hadoop是什么?Hadoop⼀个分布式系统基础架构，由Apache基⾦会开发。

hadoop集群搭建步骤

hadoop集群搭建步骤Hadoop集群搭建步骤Hadoop是一个开源的分布式计算框架，被广泛应用于大数据处理。

搭建Hadoop集群可以提供高可用性、高性能的分布式计算环境。

下面将介绍Hadoop集群的搭建步骤。

1. 硬件准备需要准备一组具有较高性能的服务器作为集群中的节点。

这些服务器需满足一定的硬件要求，包括处理器、内存和存储空间等。

通常情况下，建议使用至少3台服务器来搭建一个最小的Hadoop集群。

2. 操作系统安装在每台服务器上安装合适的操作系统，例如CentOS、Ubuntu等。

操作系统应该是最新的稳定版本，并且需要进行基本的配置，如网络设置、安装必要的软件和工具等。

3. Java环境配置Hadoop是基于Java开发的，因此需要在每台服务器上安装Java 开发环境。

确保安装的Java版本符合Hadoop的要求，并设置好相应的环境变量。

4. Hadoop安装和配置下载Hadoop的最新稳定版本，并将其解压到指定的目录。

然后，需要进行一些配置来启动Hadoop集群。

主要的配置文件包括hadoop-env.sh、core-site.xml、hdfs-site.xml和mapred-site.xml等。

在hadoop-env.sh文件中，可以设置一些全局的环境变量，如Java路径、Hadoop日志目录等。

在core-site.xml文件中，配置Hadoop的核心设置，如Hadoop的文件系统类型（HDFS）和默认的文件系统地址等。

在hdfs-site.xml文件中，配置HDFS的相关设置，如副本数量、数据块大小等。

在mapred-site.xml文件中，配置MapReduce的相关设置，如任务调度方式、任务跟踪器地址等。

5. 配置SSH免密码登录为了实现集群中各节点之间的通信，需要配置SSH免密码登录。

在每台服务器上生成SSH密钥，并将公钥添加到所有其他服务器的授权文件中，以实现无需密码即可登录其他服务器。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

搭建一个hadoop集群包括：
1个namenode
2个datanonde
1、修改主机名及IP地址
 192.168.10.184配置
vi /etc/sysconfig/network
添加内容：
NETWORKING=yes
HOSTNAME=master
 192.168.10.185配置
vi /etc/sysconfig/network
添加内容：
NETWORKING=yes
HOSTNAME=slaves1
 192.168.10.186配置
vi /etc/sysconfig/network
添加内容：
NETWORKING=yes
HOSTNAME=slaves2
 vi /etc/hosts
要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群
的主机信息

 把hosts文件copy到其余2台服务器
scp /etc/hosts root@192.168.10.185:/etc/
 然后分别执行 /bin/hostsname hostsname
例如：master上执行 /bin/hostsname master，使之生效。
2、配置主机间无密码ssh各服务器
 在各个主机上执行操作：
ssh-keygen -t rsa，然后一直回车
在/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub
cp id_rsa.pub authorized_keys
 先将所有authorized_keys合并
cat ~/.ssh/authorized_keys | ssh root@192.168.10.167 'cat
>> ~/.ssh/authorized_keys'
合并结果如下图：

 然后复制分发到其他服务器（若没有.ssh文件夹需要自行创建）
scp authorized_keys root@192.168.10.185:/root/.ssh/
 验证能否无密码ssh，在master服务器上执行操作：注意：第一次可能
会提示输入yes or no，之后就可以直接ssh到其他主机上去了。

3、卸载JDK（可以不卸载）
查看系统已经装的jdk： rpm -qa|grep jdk
卸载jdk：rpm -e --nodeps java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.el6.x86_64
4、安装JDK（三台机器都要安装）
 安装在同一位置/opt/java/jdk1.7.0_72
 下载JDK
 解压JDK ： tar -zxvf /opt/java/jdk-7u72-linux-x64.gz
 配置环境变量：
编辑profile文件：vi /etc/profile
在profile文件末尾添加以下代码：
export JAVA_HOME=/opt/java/jdk1.7.0_72
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
使得刚才编辑的文件生效：source /etc/profile
测试是否安装成功：java –version
5、安装hadoop
在master主机上配置hadoop
 配置的位置：/opt/hadoop/hadoop-0.20.2
 下载hadoop
 解压hadoop：tar -zxvf /opt/hadoop/hadoop-0.20.2.tar.gz
配置配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、
slaves、masters
在hadoop-0.20.2/conf目录下，具体配置如下
hadoop-env.sh文件
中加上jdk路径
export JAVA_HOME=/usr/java/jdk1.6.0_21

core-site.xml文件：
hdfs-site.xml文件：
mapred-site.xml文件：
slaves
在该文件中添加
slaves1
slaves2

masters
在该文件中添加
master

分发配置文件
将主节点上配置好的程序文件，复制到分发到各个从节点上
scp -r /root/hadoop/hadoop-2.2.0 root@dataserver1:/root/hadoop/
scp -r /root/hadoop/hadoop-2.2.0 root@dataserver2:/root/hadoop/
 配置环境变量：（所有主机）
编辑profile文件：vi /etc/profile
在profile文件末尾添加以下代码：
export HADOOP_HOME=/opt/hadoop/hadoop-0.20.2
export PATH=$PATH:$HADOOP_HOME/bin
使得刚才编辑的文件生效：source /etc/profile
 启动hadoop
进入hadoop文件夹，用如下命令格式化：
./bin/hadoop namenode -format
注意：上面只要出现“successfully formatted”就表示成功了。
 启动hadoop守护进程
./sbin/start-all.sh
 master节点

 slaves节点
 通过网站查看集群情况
在浏览器中输入： http://192.168.10.184:50070，网址为master结点
所对应的IP：
 在浏览器中输入： http://192.168.10.184:50030，网址为master结点
所对应的IP：
 停止hadoop守护进程
./sbin/stop-all.sh



1、安装openoffice
 下载openoffice
 解压openoffice：
tar -zxvf Apache_OpenOffice_incubating_3.4.1_Linux_x86-64_install-rpm_zh-CN.tar.gz
 进入目录/opt/openoffice/zh-CN/RPMS
 运行：yum localinstall *.rpm
 soffice -headless -accept="socket,host=127.0.0.1,port=9527;urp;"-nofirststartwizard &
2、安装swftools
 下载swf
 解压swf：
tar xf swftools-2013-04-09-1007.tar.gz
 cd swftools-2013-04-09-1007
 ./configure
 make
 make install
 mkfontscale
 mkfontdir
 fc-cache
 fc-cache -f –v