hadoop伪分布式安装方法

合集下载

大数据相关框架讲义(1-11)

第一讲在win7上安装配置HADOOP伪分布式集群1、安装虚拟机和操作系统VMware-workstation-full-10.0.0 或VirtualBox-4.2.18-88781-Win 下载VMware下载VirtualBoxubuntu-13.04-server-amd64.iso 下载ubuntu2、设置root用户密码sudo passwd root3、上传文件利用WinSCP上传JDK和HADOOP文件，利用putty连接虚拟机中的ubuntu，下载WinSCP，下载putty，下载jdk，下载jdk4、配置JDK和HADOOPtar -xzvf jdk-7u40-linux-x64.tar.gztar -xzvf hadoop-1.2.1.tar.gzsudo vi /etc/profile增加：export JAVA_HOME=/home/ysc/jdk1.7.0_40export PATH=$PATH:$JAVA_HOME/bin: /home/ysc/hadoop-1.2.1/binsource /etc/profile5、配置HADOOP配置主机名称及网络vi /etc/hostname指定名称为host001vi /etc/hosts替换内容为：192.168.137.128 host001同时加入C:\Windows\System32\drivers\etc \hosts文件查看是否启用IPV6：cat /proc/sys/net/ipv6/conf/all/disable_ipv6显示0说明ipv6开启，1说明关闭关闭ipv6的方法：sudo vi /etc/sysctl.conf增加下面几行，并重启#disable IPv6net.ipv6.conf.all.disable_ipv6 = 1net.ipv6.conf.default.disable_ipv6 = 1net.ipv6.conf.lo.disable_ipv6 = 1配置SSHcd /home/yscsudo apt-get install openssh-serverssh-keygen -t rsa（密码为空，路径默认）cp .ssh/id_rsa.pub .ssh/authorized_keysssh host001yescd hadoop-1.2.1配置HADOOP环境变量vi conf/hadoop-env.sh增加：export JAVA_HOME=/home/ysc/jdk1.7.0_40配置HADOOP运行参数vi conf/masters改localhost为host001vi conf/slaves改localhost为host001vi conf/core-site.xml<property><name></name><value>hdfs://host001:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/ysc/tmp</value></property>vi conf/hdfs-site.xml<property><name>.dir</name><value>/home/ysc/dfs/filesystem/name</value> </property><property><name>dfs.data.dir</name><value>/home/ysc/dfs/filesystem/data</value></property><property><name>dfs.replication</name><value>1</value></property>vi conf/mapred-site.xml<property><name>mapred.job.tracker</name><value>host001:9001</value></property><property><name>mapred.tasktracker.map.tasks.maximum</name><value>4</value></property><property><name>mapred.tasktracker.reduce.tasks.maximum</name><value>4</value></property><property><name>mapred.system.dir</name><value>/home/ysc/mapreduce/system</value></property><property><name>mapred.local.dir</name><value>/home/ysc/mapreduce/local</value></property>格式化名称节点并启动集群hadoop namenode -format启动集群并查看WEB管理界面start-all.sh访问http://host001:50030可以查看JobTracker 的运行状态访问http://host001:50060可以查看TaskTracker 的运行状态访问http://host001:50070可以查看NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及log 等hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -input input -output output-streaming -mapper /bin/cat -reducer /usr/bin/wchadoop jar hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount input output停止集群stop-all.sh第二讲建立开发环境编写HDFS和MAP REDUCE程序1、在eclipse中配置hadoop插件将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下，重启eclipse。

伪分布式安装core-site.xml和hdfs-site.xml配置文件

伪分布式安装core-site.xml和hdfs-site.xml配置⽂件hadoop的伪分布式安装流程如下所⽰：其中core-site.xml和hdfs-site.xml是两个很重要的配置⽂件。

core-site.xml<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>hadoop.tmp.dir⽤来存放hadoop运⾏过程中临时⽂件的⽬录，⽬录指定为/usr/local/hadoop/tmp，如果不设置这个⽬录，那么当hadoop关闭后某些系统临时⽬录会被清空，当下⼀次需要启动hadoop时需要重新进⾏初始化。

所以这⾥⼈⼯指定⽬录可以避免被清空。

df.defaultFS设置好逻辑名称，当我们下次需要访问分布式⽂件系统的时候，⽤localhost:9000就可以访问了。

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication表⽰副本的数量，伪分布式要设置为1。

Hadoop伪分布式安装

Hadoop伪分布式安装1.安装Hadoop（伪分布式）
上传Hadoop
将hadoop-2.9.2.tar.gz 上传到该目录
解压
ls
将Hadoop添加到环境变量
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出vim
验证环境变量是否正确hadoop version
修改配置文件hadoop-env.sh
保存并退出vim
修改配置文件core-site.xml
保存并退出vim
修改配置文件hdfs-site.xml
</property>
保存并退出vim
格式化HDFS
hdfs namenode -format
格式化成功的话，在/bigdata/data目录下可以看到dfs目录
启动NameNode
启动DataNode
查看NameNode管理界面
在windows使用浏览器访问http://bigdata:50070可以看到HDFS的管理界面
如果看不到，(1)检查windows是否配置了hosts;
位于C:\Windows\System32\drivers\etc\hosts
关闭HDFS的命令
2.配置SSH免密登录生成密钥
回车四次即可生成密钥
复制密钥，实现免密登录
根据提示需要输入“yes”和root用户的密码
新的HDFS启停命令
免密登录做好以后，可以使用start-dfs.sh和stop-dfs.sh命令启停HDFS，不再需要使用hadoop-daemon.sh脚本
stop-dfs.sh
注意：第一次用这个命令可能还是需要输入yes，按提示输入即可。

hadoop环境配置以及hadoop伪分布式安装实训目的

Hadoop环境配置以及Hadoop伪分布式安装是用于学习和实践大数据处理和分析的重要步骤。

下面将详细解释配置Hadoop环境以及安装Hadoop伪分布式的目的。

一、Hadoop环境配置配置Hadoop环境是为了在实际的硬件或虚拟机环境中搭建Hadoop集群，包括安装和配置Hadoop的各个组件，如HDFS（Hadoop分布式文件系统）、MapReduce（一种编程模型和运行环境）等。

这个过程涉及到网络设置、操作系统配置、软件安装和配置等步骤。

通过这个过程，用户可以了解Hadoop的基本架构和工作原理，为后续的学习和实践打下基础。

二、Hadoop伪分布式安装Hadoop伪分布式安装是一种模拟分布式环境的方法，它可以在一台或多台机器上模拟多个节点，从而在单机上测试Hadoop的各个组件。

通过这种方式，用户可以更好地理解Hadoop 如何在多台机器上协同工作，以及如何处理大规模数据。

安装Hadoop伪分布式的主要目的如下：1. 理解Hadoop的工作原理：通过在单机上模拟多个节点，用户可以更好地理解Hadoop如何在多台机器上处理数据，以及如何使用MapReduce模型进行数据处理。

2. 练习Hadoop编程：通过在单机上模拟多个节点，用户可以编写和测试Hadoop的MapReduce程序，并理解这些程序如何在单机上运行，从而更好地理解和学习Hadoop编程模型。

3. 开发和调试Hadoop应用程序：通过在单机上模拟分布式环境，用户可以在没有真实数据的情况下开发和调试Hadoop应用程序，从而提高开发和调试效率。

4. 为真实环境做准备：一旦熟悉了Hadoop的伪分布式环境，用户就可以逐渐将知识应用到真实环境中，例如添加更多的实际节点，并开始处理实际的大规模数据。

总的来说，学习和实践Hadoop环境配置以及Hadoop伪分布式安装，对于学习和实践大数据处理和分析具有重要意义。

它可以帮助用户更好地理解和学习Hadoop的工作原理和编程模型，为将来在实际环境中应用和优化Hadoop打下坚实的基础。

在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04

在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04注：该教程转⾃厦门⼤学⼤数据课程学习总结装好了 Ubuntu 系统之后，在安装 Hadoop 前还需要做⼀些必备⼯作。

创建hadoop⽤户如果你安装 Ubuntu 的时候不是⽤的 “hadoop” ⽤户，那么需要增加⼀个名为 hadoop 的⽤户。

⾸先按 ctrl+alt+t 打开终端窗⼝，输⼊如下命令创建新⽤户 : sudo useradd -m hadoop -s /bin/bash这条命令创建了可以登陆的 hadoop ⽤户，并使⽤ /bin/bash 作为 shell。

sudo命令本⽂中会⼤量使⽤到sudo命令。

sudo是ubuntu中⼀种权限管理机制，管理员可以授权给⼀些普通⽤户去执⾏⼀些需要root权限执⾏的操作。

当使⽤sudo命令时，就需要输⼊您当前⽤户的密码.密码在Linux的终端中输⼊密码，终端是不会显⽰任何你当前输⼊的密码，也不会提⽰你已经输⼊了多少字符密码。

⽽在windows系统中,输⼊密码⼀般都会以“*”表⽰你输⼊的密码字符接着使⽤如下命令设置密码，可简单设置为 hadoop，按提⽰输⼊两次密码： sudo passwd hadoop可为 hadoop ⽤户增加管理员权限，⽅便部署，避免⼀些对新⼿来说⽐较棘⼿的权限问题： sudo adduser hadoop sudo最后注销当前⽤户（点击屏幕右上⾓的齿轮，选择注销），返回登陆界⾯。

在登陆界⾯中选择刚创建的 hadoop ⽤户进⾏登陆。

更新apt⽤ hadoop ⽤户登录后，我们先更新⼀下 apt，后续我们使⽤ apt 安装软件，如果没更新可能有⼀些软件安装不了。

按 ctrl+alt+t 打开终端窗⼝，执⾏如下命令： sudo apt-get update后续需要更改⼀些配置⽂件，我⽐较喜欢⽤的是 vim（vi增强版，基本⽤法相同） sudo apt-get install vim安装SSH、配置SSH⽆密码登陆集群、单节点模式都需要⽤到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上⾯运⾏命令），Ubuntu 默认已安装了SSH client，此外还需要安装 SSH server： sudo apt-get install openssh-server安装后，配置SSH⽆密码登陆利⽤ ssh-keygen ⽣成密钥，并将密钥加⼊到授权中： exit # 退出刚才的 ssh localhost cd ~/.ssh/ # 若没有该⽬录，请先执⾏⼀次ssh localhost ssh-keygen -t rsa # 会有提⽰，都按回车就可以 cat ./id_rsa.pub >> ./authorized_keys # 加⼊授权此时再⽤ssh localhost命令，⽆需输⼊密码就可以直接登陆了。

hadoop伪分布式实验报告模板 -回复

hadoop伪分布式实验报告模板-回复什么是Hadoop伪分布式, 以及如何进行实验的报告。

实验报告模板：一、引言（100-200字）在大数据时代，Hadoop作为一个开源的分布式计算框架，被广泛应用于数据处理和分析领域。

Hadoop伪分布式是搭建在单台机器上的分布式环境的模拟实验环境，可以帮助学习者理解和掌握Hadoop的基本概念、架构和操作方法。

本实验报告将详细介绍Hadoop伪分布式的搭建和实验过程，并总结所获得的经验和教训。

二、目的和背景（200-300字）Hadoop伪分布式的实验目的是为了让学习者能够在一台机器上模拟分布式环境，学习和掌握Hadoop的基本操作和流程。

通过这个实验，学习者可以深入了解Hadoop的整体架构，包括HDFS（Hadoop分布式文件系统）和MapReduce计算框架，以及相关的工具和命令。

三、实验环境和工具（200-300字）在本次实验中，我们使用以下工具和环境进行Hadoop伪分布式搭建和实验：1. Hadoop2.10.0：作为分布式计算框架的核心组件，用于数据存储和处理；2. JDK 1.8：用于支持Hadoop的Java编程环境；3. VirtualBox 6.0：用于创建虚拟机环境，模拟分布式部署；4. Ubuntu 18.04 LTS：作为操作系统，提供稳定和可靠的环境；5. SSH工具：用于在虚拟机之间进行远程登录和通信。

四、实验步骤（800-1000字）1. 下载和安装Hadoop：根据Hadoop官方网站上的说明，下载适合的Hadoop版本并进行安装。

解压缩Hadoop安装包，并配置相应的环境变量。

2. 配置SSH无密登录：为了方便虚拟机之间的通信和远程登录，需要进行SSH无密登录的配置。

生成SSH密钥对，并将公钥分发到所有虚拟机中。

3. 配置Hadoop伪分布式：编辑Hadoop的配置文件，主要包括core-site.xml、hdfs-site.xml和mapred-site.xml。

简述hadoop伪分布式安装配置过程

Hadoop伪分布式安装配置过程在进行Hadoop伪分布式安装配置之前，首先需要确保系统环境符合安装要求。

Hadoop的安装需要在Linux系统下进行，并且需要安装好Java环境。

以下将详细介绍Hadoop伪分布式安装配置的步骤。

一、准备工作1. 确保系统为Linux系统，并且已经安装好Java环境。

2. 下载Hadoop安装包，并解压至指定目录。

二、配置Hadoop环境变量1. 打开.bashrc文件，添加以下内容：```bashexport HADOOP_HOME=/path/to/hadoopexport PATH=$PATH:$HADOOP_HOME/binexport HADOOP_CONF_DIR=/path/to/hadoop/etc/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOME```2. 执行以下命令使环境变量生效：```bashsource ~/.bashrc```三、配置Hadoop1. 编辑hadoop-env.sh文件，设置JAVA_HOME变量：```bashexport JAVA_HOME=/path/to/java```2. 编辑core-site.xml文件，添加以下内容：```xml<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>```3. 编辑hdfs-site.xml文件，添加以下内容：```xml<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>```4. 编辑mapred-site.xml.template文件，添加以下内容并保存为mapred-site.xml：```xml<configuration><property><name></name><value>yarn</value></property></configuration>```5. 编辑yarn-site.xml文件，添加以下内容：```xml<configuration><property><name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name> <value>localhost</value></property></configuration>```四、格式化HDFS执行以下命令格式化HDFS：```bashhdfs namenode -format```五、启动Hadoop1. 启动HDFS：```bashstart-dfs.sh```2. 启动YARN：```bashstart-yarn.sh```六、验证Hadoop安装通过浏览器访问xxx，确认Hadoop是否成功启动。

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册前言： (3)一. Hadoop安装（伪分布式） (4)1. 操作系统 (4)2. 安装JDK (4)1> 下载并解压JDK (4)2> 配置环境变量 (4)3> 检测JDK环境 (5)3. 安装SSH (5)1> 检验ssh是否已经安装 (5)2> 安装ssh (5)3> 配置ssh免密码登录 (5)4. 安装Hadoop (6)1> 下载并解压 (6)2> 配置环境变量 (6)3> 配置Hadoop (6)4> 启动并验证 (8)前言：网络上充斥着大量Hadoop1的教程，版本老旧，Hadoop2的中文资料相对较少，本教程的宗旨在于从Hadoop2出发，结合作者在实际工作中的经验，提供一套最新版本的Hadoop2相关教程。

为什么是Hadoop2.2.0，而不是Hadoop2.4.0本文写作时，Hadoop的最新版本已经是2.4.0，但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0，且Hadoop2.2.0已经相对稳定，所以我们依然采用2.2.0版本。

一. Hadoop安装（伪分布式）1. 操作系统Hadoop一定要运行在Linux系统环境下，网上有windows下模拟linux环境部署的教程，放弃这个吧，莫名其妙的问题多如牛毛。

2. 安装JDK1> 下载并解压JDK我的目录为：/home/apple/jdk1.82> 配置环境变量打开/etc/profile，添加以下内容：export JAVA_HOME=/home/apple/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar执行source /etc/profile ，使更改后的profile生效。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

hadoop 伪分布式安装方法
[日期：2014-04-30] 来源：51CTO 作者：晓晓 [字体：大中小]
接触Hadoop 也快两年了，也一直没自己总结过安装教程，最近又要用hadoop ，需要自己搭建一个集群来进行试验，所以就利用这个机会来写个教程以备以后自己使用，也用来和大家一起探讨。

要安装Hadoop 先安装其辅助环境 java
Ubuntu 下java 的安装与配置
将java 安装在指定路径方便以后查找使用。

Java 安装
1）在/home/xx （也就是当前用户）目录下，新建java1.xx 文件夹：mkdir /home/xx/java1.xx （文件名上表明版本号，方便日后了解java 版本）
2）进入/home/xx/java1.xx 目录下，运行安装指令：sudo /home/xx /jdk-6u26-linux-i586.bin ，则生成文件夹jdk1.6.0_26，如果感觉名字太长，可以对其重命名：mv jdk1.6.0_26 jdk
也可以使用sudoapt-get install 软件包来安装java 。

如果想卸载java 使用命令sudo rm -rf /home/x x/java1.6/jdk1.6（安装目录）
配置环境变量
进入profile 文件添加环境配置，命令为sudo gedit /etc/profile 在文件的末尾添加
1
2
3
4
5
6
7 JAVA_HOME=/home/xx/java1.xx/jdk JRE_HOME=/home/xx /java1.xx/jdk/jre PATH=$JAVA_HOME/bin:$JRE_HOME/bin: $PATH export JAVA_HOME export JRE_HOME export CLASSPATH export PATH
完成以上配置后重启电脑然后检验java 是否安装成功在终端输入java –version 后显示
说明java 安装成功。

Java 安装成功后接着进入正题进行Hadoop 的安装，本文先进行Hadoop 的伪分布安装随后会继续更新完全分布的安装过程。

本文使用的Hadoop 版本是hadoop-0.20.2，将hadoop-0.20.2.tar.gz 移至当前用户目录下进行解压t ar –zxvf hadoop-0.20.2.tar.gz
然后配置hadoop 的环境变量，其配置方法和java 的配置方法一样，在profile 中写入HADOOP_HOME =/home/xx/hadoop
Java 和hadoop 的配好的环境变量如图
配好环境后可以用hadoop version 查看版本（需要重启电脑）。

接着对hadoop的配置文件进行配置。

进入hadoop/conf路径下，修改hadoop-env.sh文件sudo gedi t hadoop-env.sh对其添加javahome
完成以上配置之后就可以在单机模式进行测试了
输出结果为：
出现上面的结果说明之前的步骤你都部署正确。

接下来进行伪分布的配置，进入hadoop/conf目录下对co re-site.xml进行编辑，添加如下内容
1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
<property>
<name>hadoop.tmp.dir</name>
<value>/home/xx/hadoop/tmp</value>
</property>
<property>
<name></name>
<value>hdfs://xx:9000</value>//也可以是主机的ip
</property>
对hdfs-site.xml进行编辑，添加如下内容
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
对mapred-site.xml进行编辑，添加如下内容
<property>
<name>mapred.job.tracker</name>
<value>xx:9001</value>
</property>
完成以上工作后，终于可以运行hadoop了，运行时要先对hdfs进行格式化（貌似跟新买一块硬盘时初次
使用也得格式化的道理一样），命令为bin/hadoop namenode –format出现如下画面为成功
接着就是启动hadoop了，激动人心的时刻到了哦，bin/start-all.sh 结果出现了如下画面
貌似子节点没有启动，显示连接被拒绝，然后用jps查看下启动了几个任务
子节点真的没有起来，看来伪分布也得配置ssh，接下来的任务就是继续配置ssh了
1.先命令
1 sudo apt-get installssh
2.然后配置可以无密码登陆本机:
由于本文是伪分布的，只在自己机器上安装就可以了，进入用户目录创建.ssh 文件mkdir .ssh 。

之后进入.ssh ，在此路径下执行生成密钥的命令ssh-keygen –t rsa（rsa是加密方式），一路回车下去就行了，成功之后在.ssh文件中查看文件ls –a 可以看见生成两个文件
表示密钥生成成功。

接下来就是产生公钥，命令
1 cp id_rsa.pub authorized_keys
3.验证ssh已安装成功及无密码登陆本机
Ssh是否安装成功可以像检验java hadoop那样查了版本号ssh –version
无密码登陆主机命令sshlocalhost ，第一次登录时会询问你是否继续链接，输入yes即可以进入。

完成以上操作hadoop的伪分布模式也安装成功了，运行bin/start-all.sh 启动，然后用jps查看启动了那些服务，成功启动的服务如下图。