Hadoop伪分布搭建

合集下载

hadoop系统伪分布搭建

Mapreduce程序设计报告姓名：学号：题目：Hadoop系统伪分布搭建和运行1、实验环境联想pc机虚拟机：VM 10.0操作系统：Centos 6.4Hadoop版本：hadoop 1.2.1Jdk版本：jdk-7u252、系统安装步骤：2.1安装配置SSH在CentOs中，已经安装ssh与sshd，可用which命令查看打开终端，在终端中中键入：ssh -keygen -t rsa生成无密码密钥对，询问其保存路径时直接回车采用默认路径。

生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/home/hadoop/.ssh"目录下。

接着将id_rsa.pub追加到授权的key里面去cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys2.2 安装JDK:打开终端，输入命令mkdir /usr/java //建立java文件夹//复制JDK文件夹包cd /usr/java //进入jdk文件夹tar –zxvf jdk-7u25-linux-x64.tar.gz //解压jdk文件mv jdk1.7.0_25 jdk //重新命名jdk文件夹rm –rf jdk-7u25-linux-x64.tar.gz //删除jkd压缩包2.3配置JDK环境变量使用root权限进行操作，输入命令：vim /etc/profile按i进入编辑，在文件的最后，添加环境变量语句：按esc，接着按:wq保存退出，执行命令source /etc/profile 使环境变量生效使用命令java -version检测环境变量是否配置成功。

要是出现以上情况，说明jdk配置成功。

2.4安装Hadoop打开终端，输入命令cp /home/tzj/hadoop/hadoop-1.2.1.tar /usr #复制hadoop安装包到usr目录cd /usr #进入"/usr"目录tar –zxvf hadoop-1.2.1.tar.gz #解压"hadoop-1.2.1.tar.gz"安装包mv hadoop-1.2.1 hadoop #将"hadoop-1.2.1"文件夹重命名"hadoop"mkdir /usr/hadoop/tmp #在hadoop文件夹下创建tmp文件夹chown –R tzj:tzj hadoop #将文件夹"hadoop"读权限分配给hadoop用户rm –rf hadoop-1.0.0.tar.gz #删除"hadoop-1.0.0.tar.gz"安装包2.5hadoop配置（1）使用root权限进行操作，输入命令：vim /etc/profile按i进入编辑，在文件的最后，添加环境变量语句：按esc，接着按:wq保存退出，执行命令source /etc/profile 使环境变量生效（2）配置hadoop-env.sh在文本最后添加# set java environmentexport JAVA_HOME=/jdk1.7.0_25（3）配置core-site.xml在文本最后添加：<configuration><property><name>hadoop.tmp.dir</name><value>/usr/hadoop/tmp</value>（备注：请先在/usr/hadoop 目录下建立tmp 文件夹）<description>A base for other temporary directories.</description> </property><property><name></name></property></configuration>（4）配置hdfs-site.xml在文本最后添加：<configuration><property><name>dfs.replication</name><value>1</value>(备注：replication 是数据副本数量，默认为3，salve少于3台就会报错) </property><configuration>（5）配置mapred-site.xml在文本最后添加：<configuration><property><name>mapred.job.tracker</name></property></configuration>2.6启动hadoop和验证（1）格式化hdfs文件系统hadoop namenode -format（2）启动hadoop2.7启动hadoopstart-all.sh启动守护程序，使用以下方式进行验证：（1）使用自带的JPS验证启动情况。

Hadoop伪分布安装配置

西北师范大学计算机科学与工程学院学生实验报告
学号： 201471030129 月 27 日
系别
计算
专业
计算机科学与
班级
14卓越
机
技术
课程名云计算称
课程选修类型
实验名 Hadoop伪分布安装配置称
2016 年 9
吴铠年姓名
学时 4 数
实验目的பைடு நூலகம்要求：
一、Hadoop伪分布模式安装配置二、HDFS Shell命令使用

<configuration> <property> <name>dfs.replication</name> <value>2</value> </property>
</configuration> 3. 开启关闭通过NameNode格式化HDFS文件系统 cd hadoop-0.20.2/conf hadoop namenode -format 开启hadoop cd hadoop-0.20.2/bin sh start-all.sh
通过jps命令检查期望的hadoop进程是否运行
关闭hadoop cd hadoop-0.20.2/bin sh stop-all.sh
错误分析：实验总结：成绩
批阅教师
批阅日期
</property> </configuration> 文件：mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

超详细解说Hadoop伪分布式搭建

超详细解说Hadoop伪分布式搭建单节点伪分布式Hadoop配置（声明：文档里面需要用户输入的均已斜体表示）第一步：安装JDK因为 Hadoop 运行必须安装 JDK 环境，因此在安装好 Linux 后进入系统的第一步便是安装 JDK ，安装过程和在 Windows 环境中的安装步骤很类似，首先去Oracle 官网去下载安装包，然后直接进行解压。

我自己解压在路径 /usr/jvm 下面，假如你的安装包现在已经下载在 jvm 文件夹下面，然后按 Ctrl+Alt+t 进去命令行，然后输入cd /usr/jvm进入到jvm文件夹下面，然后再输入如下命令进行解压：sudo tar -zxvf jdk-7u40-linux-i586.tar.gz第二步：配置环境变量解压结束以后，像在Windows 系统中一样，需要配置环境变量，在 Ubuntu 中设置环境变量的过程为打开文件 /etc/profile ，因为权限的问题，因此在命令行需要输入的是sudo gedit /etc/profile然后在根据提示输入用户密码即可，然后在文件最下面添加如下：export JAVA_HOME=/usr/jvm/jdk1.7.0_40export CLASSPATH=".:$JAVA_HOME/lib:$JAVA_HOME/jre/lib $CLASSPATH"export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:/usr/ hadoop/hadoop-1.2.1/bin:$PATH"上面这三个以单词export 开始的三个语句就类似于我们在Windows 中的环境变量中设置一样，而且在这个里面和 Windows 中不同的是，在Windows 中使用“；” 号来表示分隔，但是在Ubuntu 中是以“：” 号来表示分隔。

还需要注意的是，上面的路径都是我自己配置的时候的路径，因为我的JDK 解压在/usr/jvm 中，所以我的 JAVA_HOME 设置的是那个路径，而且如果安装的 JDK 版本不同那么后面的也不一样。

hadoop环境配置以及hadoop伪分布式安装实训目的

Hadoop环境配置以及Hadoop伪分布式安装是用于学习和实践大数据处理和分析的重要步骤。

下面将详细解释配置Hadoop环境以及安装Hadoop伪分布式的目的。

一、Hadoop环境配置配置Hadoop环境是为了在实际的硬件或虚拟机环境中搭建Hadoop集群，包括安装和配置Hadoop的各个组件，如HDFS（Hadoop分布式文件系统）、MapReduce（一种编程模型和运行环境）等。

这个过程涉及到网络设置、操作系统配置、软件安装和配置等步骤。

通过这个过程，用户可以了解Hadoop的基本架构和工作原理，为后续的学习和实践打下基础。

二、Hadoop伪分布式安装Hadoop伪分布式安装是一种模拟分布式环境的方法，它可以在一台或多台机器上模拟多个节点，从而在单机上测试Hadoop的各个组件。

通过这种方式，用户可以更好地理解Hadoop 如何在多台机器上协同工作，以及如何处理大规模数据。

安装Hadoop伪分布式的主要目的如下：1. 理解Hadoop的工作原理：通过在单机上模拟多个节点，用户可以更好地理解Hadoop如何在多台机器上处理数据，以及如何使用MapReduce模型进行数据处理。

2. 练习Hadoop编程：通过在单机上模拟多个节点，用户可以编写和测试Hadoop的MapReduce程序，并理解这些程序如何在单机上运行，从而更好地理解和学习Hadoop编程模型。

3. 开发和调试Hadoop应用程序：通过在单机上模拟分布式环境，用户可以在没有真实数据的情况下开发和调试Hadoop应用程序，从而提高开发和调试效率。

4. 为真实环境做准备：一旦熟悉了Hadoop的伪分布式环境，用户就可以逐渐将知识应用到真实环境中，例如添加更多的实际节点，并开始处理实际的大规模数据。

总的来说，学习和实践Hadoop环境配置以及Hadoop伪分布式安装，对于学习和实践大数据处理和分析具有重要意义。

它可以帮助用户更好地理解和学习Hadoop的工作原理和编程模型，为将来在实际环境中应用和优化Hadoop打下坚实的基础。

hadoop搭建伪分布式集群步骤

hadoop搭建伪分布式集群步骤Hadoop是一个开源的分布式计算框架，可以处理大规模数据集的并行计算。

搭建伪分布式集群是学习Hadoop的第一步，本文将介绍搭建伪分布式集群的步骤。

步骤一：安装Java环境Hadoop是基于Java开发的，所以首先需要安装Java环境。

可以从Oracle官网下载最新版本的JDK，并按照官方文档进行安装。

步骤二：下载Hadoop在官方网站上下载Hadoop的稳定版本。

下载后解压缩到指定目录，我们假设解压缩后的目录为/home/hadoop/hadoop。

步骤三：配置Hadoop环境变量打开终端，运行以下命令编辑环境变量配置文件：```$ sudo nano ~/.bashrc```在文件末尾添加如下内容：```export HADOOP_HOME=/home/hadoop/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin```保存并退出文件，然后运行以下命令使环境变量生效：```$ source ~/.bashrc```步骤四：配置Hadoop核心文件进入Hadoop的安装目录，找到conf目录下的hadoop-env.sh文件，使用文本编辑器打开该文件，并修改JAVA_HOME的值为Java的安装路径。

保存并退出文件。

步骤五：配置Hadoop的核心文件进入Hadoop的安装目录，找到conf目录下的core-site.xml文件，使用文本编辑器打开该文件，添加以下内容：```<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>```保存并退出文件。

1.Hadoop简介以及伪分布式的搭建

1.Hadoop简介以及伪分布式的搭建Hadoop基本介绍 hadoop是⼀个框架： hadoop的本质其实就是⼀系列功能模块⼉组成的框架，每个模块分别负责hadoop的⼀些功能，如HDFS负责⼤数据的存储功能；Yarn，负责整个集群的资源调度；Common则负责Hadoop远程过程调⽤的实现以及提供序列化机制。

hadoop具有⾼容错性，以及⾼拓展性hadoop适合处理⼤数据数据Hadoop⽣态圈Centos7单机上搭建Hadoop（伪分布模式）这⾥我都放在/opt⽬录下，创建⼀个soft⽂件夹，将Hadoop解压放在下⾯的hadoop260⽂件夹中1、⾸先将Hadoop的压缩包传到/opt⽬录下2、依次在/opt⽬录下创建soft和hadoop260⽂件夹，并将hadoop的压缩包解压到这⾥，去掉⼀层⽬录[root@hadoopsingle opt]# mkdir -p soft/hadoop260[root@hadoopsingle opt]# tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/soft/hadoop260/ --strip-components 13、接下来修改6个配置⽂件⾸先进⼊到/opt/soft/hadoop260/etc/hadoop这个⽂件夹，在执⾏下⾯的修改 1.修改hadoop-env.sh⽂件，将jdk配置进去。

这个是hadoop启动时的环境脚本[root@hadoopsingle hadoop]# vim hadoop-env.sh在下⾯这个位置，将你jdk的路径填上# The java implementation to use.export JAVA_HOME=/opt/soft/jdk180 2.修改core-site.xml⽂件。

[root@hadoopsingle hadoop]# vim core-site.xml修改如下：汉字为解释记得删掉<configuration> <property> ⽂件系统的对外接⼝，就填⼊该单机的IP地址，端⼝通⽤9000（⽐如以后Java连接时的接⼝） <name>fs.defaultFS</name> <value>hdfs://192.168.234.200:9000</value> </property> <property> 存储系统临时⽂件的地⽅ <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop260/tmp</value> </property> <property> 将来任何组都可以访问该hadoop系统，只要是root⽤户的 <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property> <property> 远程访问权限，只要是root⽤户的 <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> 任何user都可登录，只要是root⽤户的 <name>ers</name> <value>*</value> </property></configuration>如果不是root⽤户，就必须到HDFS系统进⾏授权 3.修改hdfs-site.xml ⽂件[root@hadoopsingle hadoop]# vim hdfs-site.xml添加如下：<configuration> <property> ⽂件存进来时，备份多少遍。

hadoop伪分布式搭建（2）

hadoop伪分布式搭建（2）需要hadoop安装包，xshell，Linux的jdk，百度搜索下载即可打开xshell，点击⽂件，新建名称随意，主机填写虚拟机的IP地址（虚拟机要先开机），协议选择ssh输⼊⽤户名密码之类的即可连接虚拟机。

之后可以通过是shell命令来对虚拟机进⾏操作先创建两个⽂件夹⼀个⽤来放压缩包⼀个⽤来放软件，代码：mkdir app (存放软件)mkdir soft（存放压缩包）再点击⽂件新建⼀个连接：这次上⾯选择SFTP（⽤于传⽂件）其他照着前⾯填就⾏通过cd命令进⼊soft⽬录，再将压缩包拖进来即可会到ssh协议建⽴的选项卡，通过cd命令进⼊soft⽬录通过ll命令查看，即可看到安装包通过tar命令将两个压缩包解压到同级⽬录app中这样，我们jdk和Hadoop就安装ok了，接下⾥的就是配置问题了。

通过命令sudo vim /etc/profile 配置环境变量如图配置JAVA_HOME,HADOOP_HOME填写⾃⼰安装的⽬录其他照着填即可最后是Hadoop的五个配置⽂件了，配置⽅法如下：先进⼊Hadoop的etc⽬录的hadoop⽬录下：通过ll命令即可查看⽂件我们需要配置五个⽂件：hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml1hadoop-env.shvim hadoop-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_652core-site.xml<property><name>fs.defaultFS</name><value>hdfs://hadoop00:9000</value></property> <property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value> </property>3hdfs-site.xml<property><name>dfs.replication</name><value>1</value></property>4mapred-site.xmlmv mapred-site.xml.template mapred-site.xml vim mapred-site.xml<property><name></name><value>yarn</value></property>5yarn-site.xml<property><name>yarn.resourcemanager.hostname</name><value>hadoop00：9000</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>按照上⾯配置即可，通过vi命令进⼊⽂件，将对应的代码填在对应对接的<configrutation></configrutation>中即可.。

1.Hadoop集群搭建（单机伪分布式）

1.Hadoop集群搭建（单机伪分布式）>>>加磁盘1）⾸先先将虚拟机关机2）选中需要加硬盘的虚拟机：右键-->设置-->选中硬盘，点击添加-->默认选中硬盘，点击下⼀步-->默认硬盘类型SCSI(S)，下⼀步-->默认创建新虚拟磁盘(V)，下⼀步-->根据实际需求，指定磁盘容量(单个或多个⽂件⽆所谓，选哪个都⾏)，下⼀步。

-->指定磁盘⽂件，选择浏览，找到现有虚拟机的位置(第⼀次出现.vmdk⽂件的⽂件夹)，放到⼀起，便于管理。

点击完成。

-->点击确定。

3) 可以看到现在选中的虚拟机有两块硬盘，点击开启虚拟机。

这个加硬盘只是在VMWare中，实际⼯作中直接买了硬盘加上就可以了。

4）对/dev/sdb进⾏分区df -h 查看当前已⽤磁盘分区fdisk -l 查看所有磁盘情况磁盘利⽤情况，依次对磁盘命名的规范为，第⼀块磁盘sda，第⼆块为sdb，第三块为sdc。

可以看到下图的Disk /dev/sda以第⼀块磁盘为例，磁盘分区的命名规范依次为sda1，sda2，sda3。

同理也会有sdb1，sdb2，sdb3。

可以参照下图的/dev/sda1。

下⾯的含义代表sda盘有53.7GB，共分为6527个磁柱，每个磁柱单元Units的⼤⼩为16065*512=8225280 bytes。

sda1分区为1-26号磁柱，sda2分区为26-287号磁柱，sda3为287-6528号磁柱下⾯的图⽚可以看到，还未对sdb磁盘进⾏分区fdisk /dev/sdb 分区命令可以选择m查看帮助，显⽰命令列表p 显⽰磁盘分区，同fdisk -ln 新增分区d 删除分区w 写⼊并退出选w直接将分区表写⼊保存，并退出。

mkfs -t ext4 /dev/sdb1 格式化分区，ext4是⼀种格式mkdir /newdisk 在根⽬录下创建⼀个⽤于挂载的⽂件mount /dev/sdb1 /newdisk 挂载sdb1到/newdisk⽂件(这只是临时挂载的解决⽅案，重启机器就会发现失去挂载)blkid /dev/sdb1 通过blkid命令⽣成UUIDvi /etc/fstab 编辑fstab挂载⽂件，新建⼀⾏挂载记录，将上⾯⽣成的UUID替换muount -a 执⾏后⽴即⽣效，不然的话是重启以后才⽣效。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5、验证jdk安装是否成功 java -version
免密码ssh登陆设置
1、进入.ssh文件夹(即当前用户主目录/home/hadoop，.ssh是隐藏的可以使用ls -a查看)
2、使用命令ssh-keygen -t rsa，由于不设置密码，所以就一直回车就行（产生密钥）。 3、如果是root用户，默认生成文件在/root/.ssh中，进入该目录中，使用命令cat id_rsa.put>>authorized_keys 把id_rsa.pub 追加到授权的 key 里面。
Hadoop 2.2.0 安装
2014年9月4号
Hadoop的运行方式
Hadoop运行方式分为三种，单机模式、伪分布式、完全分布式
●单机模式：Hadoop无需配置，这种方式下，Hadoop被认为是一个单独的
java进程，该模式主要用于开发调试MapReduce程序的应用逻辑。
●伪分布式：看做只有一个节点的集群，在这个集群中，这个节点既是
4、重启ssh服务使其生效：service sshd restart 测试：使用命令 ssh name，若不需要密码，则设置成功。
下载hadoop2.2.0并安装
1、下载地址为： /hadoop/common/hadoop-2.2.0/，下载hadoop-2.2.0.tar.gz这个包，放在/usr目录下，使用命令 tar -zxvf hadoop-2.2.0.tar.gz 解压即可。
如下为运行过程：
查看运行结果！
可能出现的问题
用缺省的32位native库(/usr/hadoop-2.2.0/lib/native)会出现下面的错误:
14/01/27 10:52:34 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Starting namenodes on [Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /usr/hadoop-2.2.0/lib/native/libhadoop.so which might have disabled stack guard. The VM will try to fix the stack guard now. It's highly recommended that you fix the library with 'execstack -c ', or link it with '-z noexecstack'
2、配置HADOOP_HOME的环境变量与JAVA_HOME类似，在/etc/profile最后添加 export HADOOP_HOME=/usr/hadoop-2.2.0
修改hadoop配置文件
修改的配置文件，在/usr/hadoop-2.2.0/etc/hadoop目录下，跳转到该目录下，修改core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml 这四个配置文件。
主要是对namenode 和 datanode 存储路径的设置。
修改hadoop配置文件
3、vi mapred-site.xml
<configuration> <property> <name></name> <value>yarn</value> </property> <!-<property> <name>mapred.job.tracker</name> <value>http://127.0.0.1:9001</value> </property>--> </configuration>
2、vi hdfs-site.xml
<configuration> <property> <name>.dir</name> <value>/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/data/datanode</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>
Hadoop伪分布搭建步骤
一、环境准备 1、安装虚拟机，操作系统为RedHat企业版，64位 2、修改 hostname(可选) 3、安装JDK，须为64位，与操作系统相匹配，本次使用 jdk- 7u65-linux-x64.rpm 4、配置JAVA_HOME 在/etc/profile文件中添加 export JAVA_HOME=/*/java/jdk1.7.0_65等 5、使用命令java -version测试jdk安装是否成功。二、免密码ssh登陆设置（可选）三、下载hadoop2.2.0并解压安装四、修改配置文件 1、core-site.xml 2、hdfs-site.xml 3、mapred-site.xml 4、yarn-site.xml 五、启动hadoop 六、测试运行
要想进一步了解Hadoop的最新情况，可登陆：
/
首先需要在hadoop-env.sh和yarn-env.sh这两个文件中添加: JAVA_HOME=/usr/java/jdk1.7.0_65
修改hadoop配置文件
1、vi core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property>
启动hadoop
命令在/usr/hadoop-2.2.0/bin下，启动文件在/usr/hadoop-2.2.0/sbin下 1、格式化namenode bin/hdfs namenode -format 2、启动sbin/start-dfs.sh 3、启动sbin/start-yarn.sh (也可用sbin/start-all.sh同时启动所有) 4、jps 查看进程（一般为五个） 4312 NameNode 4756 ResourceManager 4428 DataNode 4855 NodeManager 4576 SecondaryNameNode 5、如果没有单独配置yarn-site.xml中的yarn.resourcemanager.webapp.address，默认的端口8088 访问http://127.0.0.1:8088/ 可以访问hadoop管理页面. 如果没有单独配置 hdfs-site.xml中的node.http-address,默认端口 50070，http://127.0.0.1:50070 可以访问namenode节点信息。
<property> <name>hadoop.tmp.dir</name> <value>/data/hadoop/tmp</value> </property> </configuration>
添加hdfs的指定URL路径，由于是伪分布模式，可为真实ip、 localhost。
修改hadoop配置文件
修改hadoop配置文件
4、vi yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
在/etc/profile中添加：
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib .preferIPv4Stack=true"
将下载好的JDK复制到安装目录下，本次为/usr 使用命令~$rpm -ivh jdk-7u65-linux-x64.rpm解压安装，默认安装好的路径为 /usr/java/jdk1.7.0_65，即JAVA_HOME
4、配置JAVA_HOME 在/etc/profile文件中添加：(vi /etc/profile打开) export JAVA_HOME= /usr/java/jdk1.7.0_45 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin:$PATH 使用命令source /etc/profile使变更生效。