hadoop完全分布式的搭建步骤

合集下载

hadoop的安装与配置（完全分布式）

hadoop的安装与配置（完全分布式）完全分布式模式：前⾯已经说了本地模式和伪分布模式，这两种在hadoop的应⽤中并不⽤于实际，因为⼏乎没⼈会将整个hadoop集群搭建在⼀台服务器上（hadoop主要是围绕：分布式计算和分布式存储，如果以⼀台服务器做，那就完全违背了hadoop的核⼼⽅法）。

简单说，本地模式是hadoop的安装，伪分布模式是本地搭建hadoop的模拟环境。

（当然实际上并不是这个样⼦的，⼩博主有机会给⼤家说！）那么在hadoop的搭建，其实真正⽤于⽣产的就是完全分布式模式：思路简介域名解析ssh免密登陆java和hadoop环境配置hadoop⽂件复制主节点到其他节点格式化主节点hadoop搭建过程+简介在搭建完全分布式前⼤家需要了解以下内容，以便于⼤家更好的了解hadoop环境：1.hadoop的核⼼：分布式存储和分布式计算（⽤官⽅的说法就是HDFS和MapReduce）2.集群结构：1+1+n 集群结构（主节点+备⽤节点+多个从节点）3.域名解析：这⾥为了⽅便，我们选择修改/etc/hosts实现域名解析（hadoop会在.../etc/hadoop/salves下添加从节点，这⾥需要解析名，当然你也能直接输⼊ip地址，更简单）4.hadoop的命令发放，需要从ssh接⼝登录到其他服务器上，所以需要配置ssh免密登陆5.本⽂采取1+1+3 集群⽅式：域名为：s100（主）,s10（备主）,s1,s2,s3（从）⼀：配置域名解析主——s100:[root@localhost ~]# vim /etc/hosts1127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain42 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain63192.168.1.68 s1004192.168.1.108 s15192.168.1.104 s26192.168.1.198 s37192.168.1.197 s10将s100上的/etc/hosts拷贝到其他hadoop的集群服务器上。

hadoop完全分布式配置过程详解

hadoop完全分布式配置过程详解Hadoop全分布搭建⼀.今⽇任务hadoop完全分布式系统搭建⼆.任务内容1.准备软件hadoop-2.6.0-cdh5.7.0.tar.gzjdk-8u161-linux-x64.tar.gzCentos-6.5VirtualBox-5.2.18-124319-Win.exe1. 配置过程第⼀步：配置免密登录1. 新建虚拟机，设置静态ip地址，主机名master，ip以及主机名映射1. 配置免密登陆1. 启动ssh服务Service sshd start1. 配置免密登录，更新公钥第⼆步：复制虚拟机，更改ip主机名和ip映射，分别配置56.2 主机名master，56.3 主机名 slaver1,56.4 主机名slaver2第三步：上传jdk和hadoop到 hadoop⽤户⽬录使⽤sftp上传jdk和hadoop的压缩包到hadoop⽤户⽬录下第四步：jdk和hadoop配置1. 解压⽂件1. 配置环境变量1. 配置hadoop⽂件1. core-site.xml2.hdfs-site.Xml1. mapred-site.xml1. Yarn-site.xml1. Slaver1. 将jdk和hadoop⽂件分发到slaver1 和slaver21. 在master格式化hdfs的namenode 并且启动hdfs，使⽤jps验证启动三.遇到问题1.复制虚拟机后需要⼀个个更改ip包括映射等2.配置好之后启动 slaver1 和slaver2 均没有Java环境，但是jdk已配好四．处理⽅式Slaver1 和slaver2 配置成功环境变量但是启动时提⽰没有java环境的问题，解决⽅式是在master配置好之后，启动时显⽰6个进程，表⽰master主机hadoop⽂件已经全部配置，然后使⽤远程将 master配置好的 hadoop⽂件分发到slaver1和slaver2总结：1. 此处配置主机名和ip映射时，直接将所有的全部配置，以便复制虚拟机时不需要继续修改2. 配置java环境时，确保系统本⾝没有已经安装好的jdk安装包，有则删除3. 配置好环境变量，需要使⽤ source使其⽣效4. 分发⽂件时，最好是将master配置好的hadoop⽂件分发过去，避免出现其他问题5. 启动成功后，master有5个进程，slaver都只有2个进程。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

Hadoop2.8和Spark2.1完全分布式搭建详解_光环大数据培训

为了方便管理这里在主目录建了三个文件夹：Java,spark,hadoop. mkdir Java spark hadoop 现在将 jdk,hadoop,scala,spark 的安装包分别传到路径 basePath/Java,basePath/hadoop,basePah/spark 下,(scala 和 spark 的压缩包都放在 spark 文件夹下)。
静态 IP 设置：但是其中有部分问题，不知道是 16.0 和 14.0 版本差异的问题还是教程本身的问题，一个是网络重启之后 DNS 配置丢失的问题。每次重启之后会发现配置的 DNS 文件恢复成了 127.0.0.1
光环大数据
光环大数据--大数据培训知名品牌
这个问题是由于 interface，networkManager 两种网络管理冲突造成的。解决方法就是在编辑链接的时候将 DNS 也一起编辑。这样就不用再编辑 DNS 的配置文件。如下图所示：
其他步骤按博文所说就可以完成静态 IP 的配置。
第五步：hosts 配置，特别强调主机名称不要含有下划线"_"，最好是纯英文。因为 hadoopXML 配置的时候部分 value 不能有下划线，会报错。第六步：SSH 免密码登录:
光环大数据
光环大数据--大数据培训知名品牌
为什么大家选择光环大数据！
大数据培训、人工智能培训、 Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请专业的大数据领域知名讲师，确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术，将前沿技能融入教学中，确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式，指导学生更快的掌握技能知识，成就上万个高薪就业学子。Hale Waihona Puke 2.辅助工具安装包：

hadoop2.2安装

Hadoop2.2.0安装配置手册！完全分布式Hadoop集群搭建过程历时一周多，终于搭建好最新版本Hadoop2.2集群，期间遇到各种问题，作为菜鸟真心被各种折磨，不过当wordcount给出结果的那一刻，兴奋的不得了~~（文当中若有错误之处或疑问欢迎指正，互相学习）另外：欢迎配置过程中遇到问题的朋友留言，相互讨论，并且能够把解决方法共享给大家。

下面评论中有几个朋友遇到的问题和解决方法，欢迎参考！第一部分Hadoop 2.2 下载Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。

官方目前是提供了linux32位系统可执行文件，所以如果需要在64位系统上部署则需要单独下载src 源码自行编译（10楼评论中提供了一个解决方法链接）。

下载地址:/hadoop/common/hadoop-2.2.0/如下图所示，下载红色标记部分即可。

如果要自行编译则下载src.tar.gz.第二部分集群环境搭建1、这里我们搭建一个由三台机器组成的集群：192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色（namenode, secondary namenode, datanode , resourcemanager, nodemanager）1.2 Hostname可以在/etc/hostname中修改（ubuntu是在这个路径下，RedHat稍有不同）1.3 这里我们为每台机器新建了一个账户hduser.这里需要给每个账户分配sudo的权限。

Hadoop完全分布式环境搭建

此处使用三个节点进行搭建集群环境，三个节点的IP分别为：192.168.170.128主机名为master192.168.170.129主机名为slave1192.168.170.130主机名为slave2一、修改主机名hostnameslave2。

二、修改主机--IP映射hosts文件左边是主机IP,右边是主机名.执行以下命令：修改每个节点/etc/hosts文件，加入以下内容：配置完后，需重启各节点使其生效。

三、安装SSH并配置各个节点间无密码登录SSh原理参考网址:/hujiapeng/p/5934711.html配置master节点无密码登录本机。

Ubuntu 默认已安装了SSH client，此外还需要安装SSH server：安装后，可以使用如下命令登陆本机：SSH首次登陆提示但这样登陆是需要每次输入密码的，我们需要配置成SSH无密码登陆比较方便。

再执行ssh localhost，就可以无密码登录本机。

同理，slave1、slave2节点都需要用上述步骤配置登录本机。

配置master与slave1无密码互登录：将master主机中的id_rsa.pub文件复制到slave1主机的id_rsa.pub.master文件(新生成的文将slave1主机的id_rsa.pub.master文件的内容追加到authorized_keys文件中验证master无密码登录slave1第一次登录时需要输入yes，然后无需输入密码即登录成功。

此后不需输入任何信息即可登录。

总之，想要在master上无密码登录slave1，只要将master的公钥追加到slave1的authorized_keys文件中即可。

如果想让master，slave1节点无密码互登录，需要在slave1中以同样的方式配置，即将slave1的公钥追加到master的authorized_keys文件中。

同理，需要配置master与slave2无密码互登录，slave1与slave2无密码互登录。

Hadoop2.7完全分布式搭建文档

Hadoop2.7 完全分布式搭建文档要想深入的学习hadoop数据分析技术，首要的任务是必须要将hadoop集群环境搭建起来，本文主要讲述如何搭建一套hadoop完全分布式集群环境。

环境配置：2台64位的redhat6.5 + 1台64位centos6.9 + Hadoop + java7一、先配置服务器的主机名Namenode节点对应的主机名为masterDatanode节点对应的主机名分别为node1、node21、在每一台服务器上执行vim /etc/hosts，先删除hosts里面的内容，然后追加以下内容：[html]view plaincopyprint?1.192.168.15.135 master2.172.30.25.165 node13.172.30.25.166 node22、在每一台服务器上执行vim /etc/sysconfig/network，修改红色部分的内容，对应上面所说的hostname，对于master节点那么hostname就为master[cpp]view plaincopyprint?WORKING=yes2.HOSTNAME= masterWORKING_IPV6=yes4.IPV6_AUTOCONF=no类似的，在node1服务器节点上应该为：[cpp]view plaincopyprint?WORKING=yes2.HOSTNAME= node1WORKING_IPV6=yes4.IPV6_AUTOCONF=no类似的，在node2服务器节点上应该为：[cpp]view plaincopyprint?WORKING=yes2.HOSTNAME= node2WORKING_IPV6=yes4.IPV6_AUTOCONF=no这两步的作用很关键，如果配置不成功，进行分布式计算的时候有可能找不到主机名二、安装SSH，并让master免验证登陆自身服务器、节点服务器1、执行下面命令，让master节点能够免验证登陆自身服务器[cpp]view plaincopyprint?1.ssh-keygen -t dsa -P'' -f ~/.ssh/id_dsa2.cat ~/.ssh/id_dsa.pub>> ~/.ssh/authorized_keys3.exportHADOOP\_PREFIX=/usr/local/hadoopHADOOP_PREFIX表示自己安装的hadoop路径2、让主结点(master)能通过SSH免密码登录两个子结点（slave）为了实现这个功能，两个slave结点的公钥文件中必须要包含主结点的公钥信息，这样当master就可以顺利安全地访问这两个slave结点了。

Hadoop环境搭建--Docker完全分布式部署Hadoop环境（菜鸟采坑吐血整理）

Hadoop环境搭建--Docker完全分布式部署Hadoop环境（菜鸟采坑吐⾎整理）系统：Centos 7，内核版本3.10本⽂介绍如何从0利⽤Docker搭建Hadoop环境，制作的镜像⽂件已经分享，也可以直接使⽤制作好的镜像⽂件。

⼀、宿主机准备⼯作0、宿主机（Centos7）安装Java（⾮必须，这⾥是为了⽅便搭建⽤于调试的伪分布式环境）1、宿主机安装Docker并启动Docker服务安装：yum install -y docker启动：service docker start⼆、制作Hadoop镜像（本⽂制作的镜像⽂件已经上传，如果直接使⽤制作好的镜像，可以忽略本步，直接跳转⾄步骤三）1、从官⽅下载Centos镜像docker pull centos下载后查看镜像 docker images 可以看到刚刚拉取的Centos镜像2、为镜像安装Hadoop1）启动centos容器docker run -it centos2）容器内安装java下载java，根据需要选择合适版本，如果下载历史版本拉到页⾯底端，这⾥我安装了java8/usr下创建java⽂件夹，并将java安装包在java⽂件下解压tar -zxvf jdk-8u192-linux-x64.tar.gz解压后⽂件夹改名（⾮必需）mv jdk1.8.0_192 jdk1.8配置java环境变量vi ~/.bashrc ，添加内容，保存后退出export JAVA_HOME=/usr/java/jdk1.8export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin使环境变量⽣效 source ~/.bashrc验证安装结果 java -version这⾥注意，因为是在容器中安装，修改的是~/.bashrc⽽⾮我们使⽤更多的/etc/profile，否则再次启动容器的时候会环境变量会失效。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop完全分布式的搭建步骤
步骤目录：
第一步：安装虚拟机
第二步：Linux的环境配置
第三步：安装jdk并配置环境变量
第四步：建立专门运行Hadoop的专有用户abc 第五步：ssh免密码登录配置
第六步：Hadoop的安装与配置
第七步：格式化hdfs和启动守护进程
详细步骤如下
第一步：安装虚拟机
第二步：Linux的环境配置
1.修改IP（桥接模式）
vim /etc/sysconfig/network-scriptps/ifcfg-eth0
(推荐使用手动的方法设置)
2.修改主机名
vim /etc/sysconfig/network
3.修改主机名和IP的映射关系
vim /etc/hosts
192.168.6.115 hadoop01
192.168.6.116 hadoop02
192.168.6.117 hadoop03
4.关闭防火墙
service iptables status//查看状态
service iptables stop//关闭防火墙
chkconfig iptables --list //查看防火墙是否开机自启
chkconfig iptables off//关闭防火墙开机自启
5.重启系统
reboot
6.查看主机名：hostname
查看IP：ifconfig
查看防火墙状态：service iptables status
7.查看各个主机之间是否能通信：互相ping IP地址
第三步：安装jdk并配置环境变量
1.上传jdk到根目录
2.创建目录mkdir /usr/java
3.解压jdk
tar –zxvf jdk-7u76-linux-i586.tar.gz –C /usr/java
cd /usr/java
ls
4.将Java添加到环境变量（使得在任何目录下均可使用Java）
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_76
export PATH=$PATH:$JAVA_HOME/bin
Esc+shift+zz//保存并退出
source /etc/profile//刷新
java –version//在任何目录查看Java版本信息
注意：配置好后一定要删除Linux系统先前自带的jdk，具体步骤如下：
安装好的CentOS会自带OpenJdk,用命令 java -version ，会有下面的信息：
java version "1.6.0"
OpenJDK Runtime Environment (build 1.6.0-b09)
OpenJDK 64-Bit Server VM (build 1.6.0-b09, mixed mode) (最好还是先卸载掉openjdk,在安装sun公司的jdk.)
先查看 rpm -qa | grep java
显示如下信息：
java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
卸载：
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-
40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5 还有一些其他的命令
rpm -qa | grep gcj
rpm -qa | grep jdk
如果出现找不到openjdk source的话，那么还可以这样卸载yum –y remove java java-1.4.2-gcj-compat-1.4.2.0-
40jpp.115
yum –y remove java java-1.6.0-openjdk-1.6.0.0-
1.7.b09.el5
第四步：建立专门运行Hadoop的专有用户abc
useradd abc
passwd abc//给用户abc加密
第五步：ssh免密码登录配置
注意:每个节点都用abc用户登录，在abc用户的目录下进行操作，每个节点做以下相同操作。

ssh-keygen –t rsa//连续三次回车，选择默认的保存路径
cd .ssh/
cp id_rsa.pub authorized_keys
scp .ssh/authorized_keys abc@hadoop02:~/.ssh//把各个节点的authorized_keys的内容互相拷贝加入到对方的此文件中
cat id_rsa.pub >> ~/.ssh/ authorized_keys
chmod 644 .ssh/ authorized_keys//给authorized_keys文件的所有者赋予读和写的权限
ssh hadoop01//免密码登录自己
第六步：Hadoop的安装与配置
1.注意一定要用hadoop01的abc用户登录Filezilla把hadoop-
2.2.0压缩包上传到该用户目录下（/home/abc）
2.解压 tar –zxvf hadoop-2.2.0.tar.gz
3.将hadoop添加到环境变量，使得在任何目录下均可运行hadoop
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_76
export HADOOP_HOME=/home/abc/hadoop-2.2.0
export PATH=$PATH:$JAVA_HOME/bin：$HADOOP_HOME/bin
source /etc/profile//刷新
4.修改hadoop-env.sh文件
export JAVA_HOME=/usr/java/jdk1.7.0_76(第27行插入)
5.修改core-site.xml文件
6.修改hdfs-site.xml文件
7.修改mapred-site.xml文件（先前没有该文件，要把mapred-site.xml.template修改为mapred-site.xml。

命令是mv mapred-site.xml.template mapred-site.xml）
8.修改yarn-site.xml文件
9.修改slaves文件（记录datanode）
hadoop02
hadoop03
10.修改masters文件（记录namenode）
Hadoop01
11.配置好Hadoop之后，将Hadoop整个安装文件夹通过scp命令分别拷贝到hadoop02和hadoop03主机上面去，设置都不需要更改。

执行以下命令：
scp –r ./hadoop-2.2.0 abc@hadoop02:/home/abc
scp –r ./hadoop-2.2.0 abc@hadoop03:/home/abc
第七步：格式化分布式文件系统（HDFS）和启动守护进程(用namenode节点进行操作)
1.格式化hdfs命令：bin/hadoop namenode –format
2.启动hdfs命令：cd hadoop-2.2.0/sbin
./start-all.sh
3.在namenode终端下执行jps如果有namenode和resourcemanager进程，则hadoop01就安装好了。

在hadoop02和hadoop03终端下执行jps，如果有datanode和nodemanager进程，则hadoo02和hadoop03就安装好了。

4.一些常用的hdfs命令：
上传文件到hdfs：hadoop fs –put /root/jdk7u76-linux-i586.tar.gz hdfs://hadoop01:9000/jdk
查看已上传的文件：hadoop fs –ls hdfs://hadoop01:9000/ 下载已上传的文件：hadoop fs –get hdfs://hadoop01:900/jdk /home/jdk1.7
查看集群状态：bin/hdfs dfsadmin –report
查看文件块组成：bin/hdfs fsck / -files –blocks
查看HDFS的管理界面：http：//192.168.5.115:50070
查看yarn管理界面：http：//192.168.5.115:8088
查看namenode的端口监听情况：netstat –an | grep 9000 查看namenode是否处于安全模式：hadoop dfsadmin –safemode get
使得namenode进入安全模式：hadoop dfsadmin –safemode enter
使得namenode离开安全模式：hadoop dfsadmin –safemode leave。