hadoop3安装和配置

合集下载

安装handoop3

安装handoop3.2.1过程第一步安装虚拟机：使用Oracle VM VirtualBox 6.1配置网络系统4个虚拟机Master 系统为Ubuntu18.04 Server版本Node1 系统为Centos8.1 boot 版本Node2 系统为Centos8.1 boot 版本Node3 系统为Centos8.1 boot 版本虚拟机的网络选择：JDK版本是为Linux下jdk1.8.0_241主机名ip master 10.0.2.4 node1 10.0.2.35 node2 10.0.2.36 node3 10.0.2.37 在master节点上操作：vi /etc/hosts添加以下数据：10.0.2.4 master10.0.2.35 node110.0.2.36 node210.0.2.37 node3ssh-keygen -t rsa产生秘钥，一直点回车。

完成后把秘钥拷贝到其他三个节点上进入root用户根目录输入：cd ./.ssh/cat ./id_rsa.pub >> ./authorized_keysssh-copy-id -i node1ssh-copy-id -i node2ssh-copy-id -i node3成功提示：ssh node1ssh-copy-id -i node1ssh-copy-id -i node2ssh-copy-id -i node3关闭防火墙，禁止防火墙自启动service iptables stopchkconfig iptables off安装hadoopvi hadoop-env.sh添加以下配置export JAVA_HOME=/usr/local/soft/jdkexport HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootvi core-site.xml在configuration的尖括号中添加：<property><name>fs.defaultFS</name><value>hdfs://master:9820</value></property><property><name>hadoop.tmp.dir</name><value>/opt/hadoop/full</value></property>vi hdfs-site.xml和上个文件一样<property><name>dfs.replication</name><value>2</value></property><property><name>node.secondary.http-address</name><value>node1:9868</value></property>vi worker把文件里的localhost删掉,填上子节点的名称，里面的主机就是hadoop中的datanodenode1node2node3复制到其他三台虚拟机scp -r /opt/hadoop-3.2.1 node1:/optscp -r /opt/hadoop-3.2.1 node2:/optscp -r /opt/hadoop-3.2.1 node3:/opt修改sbin下的start-dfs.sh,stop-dfs.sh,start-yarn.sh,stop-yarn.sh#!/usr/bin/env bashHDFS_DATANODE_USER=rootHADOOP_SECURE_DN_USER=hdfsHDFS_NAMENODE_USER=rootHDFS_SECONDARYNAMENODE_USER=root启动全部进程start-all.sh。

Hadoop的安装与配置及示例wordcount的运行

Hadoop的安装与配置及示例程序wordcount的运行目录前言 (1)1 机器配置说明 (2)2 查看机器间是否能相互通信（使用ping命令） (2)3 ssh设置及关闭防火墙 (2)1）fedora装好后默认启动sshd服务，如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status (3)2）关闭防火墙（NameNode和DataNode都必须关闭） (3)4 安装jdk1.6(集群中机子都一样) (3)5 安装hadoop(集群中机子都一样) (4)6 配置hadoop (4)1）配置JA V A环境 (4)2）配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件 (5)3）将NameNode上完整的hadoop拷贝到DataNode上，可先将其进行压缩后直接scp 过去或是用盘拷贝过去 (7)4）配置NameNode上的conf/masters和conf/slaves (7)7 运行hadoop (7)1）格式化文件系统 (7)2）启动hadoop (7)3）用jps命令查看进程，NameNode上的结果如下： (8)4）查看集群状态 (8)8 运行Wordcount.java程序 (8)1）先在本地磁盘上建立两个文件f1和f2 (8)2）在hdfs上建立一个input目录 (9)3）将f1和f2拷贝到hdfs的input目录下 (9)4）查看hdfs上有没有f1,f2 (9)5)执行wordcount（确保hdfs上没有output目录） (9)6）运行完成，查看结果 (9)前言最近在学习Hadoop，文章只是记录我的学习过程，难免有不足甚至是错误之处，请大家谅解并指正！Hadoop版本是最新发布的Hadoop-0.21.0版本，其中一些Hadoop命令已发生变化，为方便以后学习，这里均采用最新命令。

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

hadoop安装实验总结

hadoop安装实验总结Hadoop安装实验总结Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。

在本次实验中，我成功安装了Hadoop，并进行了相关的配置和测试。

以下是我对整个过程的总结和经验分享。

1. 环境准备在开始安装Hadoop之前，我们需要确保已经具备了以下几个环境条件：- 一台Linux操作系统的机器，推荐使用Ubuntu或CentOS。

- Java开发环境，Hadoop是基于Java开发的，因此需要安装JDK。

- SSH服务，Hadoop通过SSH协议进行节点之间的通信，因此需要确保SSH服务已启动。

2. 下载和安装Hadoop可以从Hadoop官方网站上下载最新的稳定版本。

下载完成后，解压缩到指定目录，并设置环境变量。

同时，还需要进行一些配置，包括修改配置文件和创建必要的目录。

3. 配置Hadoop集群Hadoop是一个分布式系统，通常会配置一个包含多个节点的集群。

在配置文件中，我们需要指定集群的各个节点的IP地址和端口号，并设置一些重要的参数，如数据存储路径、副本数量等。

此外，还可以根据实际需求调整其他配置参数，以优化集群性能。

4. 启动Hadoop集群在完成集群配置后，我们需要启动Hadoop集群。

这一过程需要先启动Hadoop的各个组件，包括NameNode、DataNode、ResourceManager和NodeManager等。

启动成功后，可以通过Web 界面查看集群的状态和运行情况。

5. 测试Hadoop集群为了验证Hadoop集群的正常运行，我们可以进行一些简单的测试。

例如，可以使用Hadoop提供的命令行工具上传和下载文件，查看文件的副本情况，或者运行一些MapReduce任务进行数据处理。

这些测试可以帮助我们了解集群的性能和可靠性。

6. 故障排除与优化在实际使用Hadoop时，可能会遇到一些故障和性能问题。

为了解决这些问题，我们可以通过查看日志文件或者使用Hadoop提供的工具进行故障排查。

hadoop3 源码编译

hadoop3 源码编译
编译hadoop 3源码需要以下几个步骤：
1. 确认编译环境
Hadoop 3要求使用JDK 8或更高版本进行编译。

同时需要安装Maven 3.3或更高版本作为构建工具.
2. 下载源代码
从Apache官方网站下载最新的Hadoop v3源代码包并解压缩。

3. 修改配置文件
进入hadoop-3.x-src/hadoop-project-dist/hadoop-common目录，编辑pom.xml文件，将hadoop.version属性设置为当前版本号。

4. 编译代码
在hadoop-3.x-src目录下使用以下命令编译源代码：
```
mvn clean install -DskipTests
```
这将编译hadoop的所有模块，并将构建的JAR文件安装到本地Maven存储库中。

5. 配置环境变量
将以下环境变量添加到你的~/.bashrc文件中：
```
export HADOOP_HOME=/path/to/hadoop-3.x-src/hadoop-
dist/target/hadoop-3.x.x
export PATH=PATH:HADOOP_HOME/bin:HADOOP_HOME/sbin
```
替换/path/to/为你的Hadoop源代码目录。

6. 测试安装
重启终端后，使用以下命令验证Hadoop安装是否成功：
```
hadoop version
```
如果一切顺利，你应该能够看到安装的版本号。

以上是Hadoop 3源代码的编译流程。

Hadoop 搭建

实验报告
（与程序设计有关）
课程名称：云计算技术提高
实验题目：Hadoop搭建
Xx xx：0000000000
x x:xx
x x：
xxxx
2021年5月21日
实验目的及要求：
开源分布式计算架构Hadoop的搭建
软硬件环境：
Vmware一台计算机
算法或原理分析（实验内容）：
Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台，使用Java语言开发，具有很好的跨平台性，可以运行在商用（廉价）硬件上，用户无需了解分布式底层细节，就可以开发分布式程序，充分使用集群的高速计算和存储。
三．Hadoop的安装
1.安装并配置环境变量
进入官网进行下载hadoop-2.7.5, 将压缩包在/usr目录下解压利用tar -zxvf Hadoop-2.7.5.tar.gz命令。同样进入 vi /etc/profile 文件，设置相应的HADOOP_HOME、PATH在hadoop相应的绝对路径。
4.建立ssh无密码访问
二．JDK安装
1.下载JDK
利用yum list java-1.8*查看镜像列表；并利用yum install java-1.8.0-openjdk* -y安装
2.配置环境变量
利用vi /etc/profile文件配置环境，设置相应的JAVA_HOME、JRE_HOME、PATH、CLASSPATH的绝对路径。退出后，使用source /etc/profile使环境变量生效。利用java -version可以测试安装是否成功。
3.关闭防火墙并设置时间同步
通过命令firewall-cmd–state查看防火墙运行状态；利用systemctl stop firewalld.service关闭防火墙；最后使用systemctl disable firewalld.service禁止自启。利用yum install ntp下载相关组件，利用date命令测试

hadoop安装以及配置启动命令

hadoop安装以及配置启动命令本次安装使⽤的Hadoop⽂件是badou学院的Hadoop1.2.1.tar.gz，以下步骤都是在此版本上进⾏。

1、安装，通过下载tar.gz⽂件安装到指定⽬录2、安装好后需要配置Hadoop集群配置信息：在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称名称对应的是各⾃机器的hostname这样通过hosts⽂件中配置的域名地址映射可以直接找到对应的机器 a、core-site.xml 在xml⽂件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property> <property><name></name><value>hdfs://192.168.79.10:9000</value></property> c、hdfs-site.xml 在⽂件中添加<property><name>dfs.replication</name><value>3</value></property> d、hadoop-env.xml 在⽂件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45 步骤2配置好后将当前hadoop⽂件夹复制到集群中其他机器上，只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群3、配置好Hadoop环境后需要测试环境是否可⽤： a、⾸先进⼊Hadoop的安装⽬录，进⼊bin⽬录下，先将Hadoop环境初始化，命令：./hadoop namenode -format b、初始化之后启动Hadoop,命令:./start_all.sh c、查看Hadoop根⽬录下的⽂件，命令:./hadoop fs -ls/ d、上传⽂件，命令:./hadoop fs -put ⽂件路径 e、查看⽂件内容，命令：./hadoopo fs -cat hadoop⽂件地址注意：在安装Hadoop环境时先安装好机器集群，使得⾄少3台以上（含3台）机器之间可以免密互相登录（可以查看上⼀篇的linux的ssh免密登录）执⾏Python⽂件时的部分配置/usr/local/src/hadoop-1.2.1/bin/hadoop/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

hadoop3.0.0安装和配置1.安装环境
硬件：虚拟机
操作系统：Centos 7 64位
IP：192.168.0.101
主机名：dbp
JDK：jdk-8u144-linux-x64.tar.gz
Hadoop：hadoop-3.0.0-beta1.tar.gz
2.关闭防火墙并配置主机名
[root@dbp]#systemctl stop firewalld #临时关闭防火墙
[root@dbp]#systemctl disable firewalld #关闭防火墙开机自启动
[root@dbp]#hostnamectl set-hostname dbp
同时修改/etc/hosts和/etc/sysconfig/network配置信息
3.配置SSH无密码登陆
[root@dbp]# ssh-keygen -t rsa #直接回车
[root@dbp]# ll ~/.ssh
[root@dbp .ssh]# cp id_rsa.pub authorized_keys
[root@dbp .ssh]# ssh localhost #验证不需要输入密码即可登录
4.安装JDK
1、准备jdk到指定目录
2、解压
[root@dbp software]# tar–xzvf jdk-8u144-linux-x64.tar.gz [root@dbp software]# mv jdk1.8.0_144/usr/local/jdk #重命名4、设置环境变量
[root@dbp software]# vim ~/.bash_profile
5、使环境变量生效并验证
5.安装Hadoop3.0.0
1、准备hadoop到指定目录
2、解压
[root@dbp software]# tar -xzvf hadoop-3.0.0-beta1.tar.gz
[root@dbp software]# mv hadoop-3.0.0-beta1 /usr/local/hadoop #重命名
3、设置环境变量
[root@dbp hadoop]# vim ~/.bash_profile
4、使配置文件生效并验证
[root@dbp hadoop]# source ~/.bash_profile
5、Hadoop配置
进入$HADOOP_HOME/etc/hadoop和$HADOOP_HOME/sbin目录，配置如下文件：hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
start-dfs.sh
start-yarn.sh
1）配置hadoop-env.sh
2）配置core-site.xml
3）配置hdfs-site.xml
4）配置mapred-site.xml
5）配置yarn-site.xml
6）配置start-dfs.sh
6）配置start-yarn.sh
4、Hadoop启动
1）格式化namenode
[root@dbp conf]# hadoop namenode -format
2）启动NameNode 和DataNode 守护进程
[root@dbp hadoop]# start-all.sh
5、启动验证
1）执行jps命令，有如下进程，说明Hadoop正常启动[root@dbp hadoop]# jps
注意：
NameNode进程没有配置成功：1）没有格式化
2）配置文件主机名信息是否正确
3）hostname与ip没有绑定
4）SSH的免密码登陆没有配置成功。