实验一 hadoop 安装配置

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验一hadoop 安装配置

一、实验目的

掌握hadoop平台安装配置方法，认识hadoop平台构成；熟悉hadoop平台基本命令的使用。

二、实验内容

1、安装配置hadoop平台

2、熟悉hadoop常用命令

3、运行MapReduce例程

三、实验步骤

（一）安装java JDK

查看java是否安装，如果没有先安装java

（二）ssh配置

1、用ssh localhost登录，查看ssh无密码登录是否配置；

2、如果没有配置，执行命令：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys （三）下载、安装hadoop

1、下载hadoop2.6.0

2、解压hadoop-2.6.0.tar， tar -xzvf hadoop-2.6.0.tar.gz

3、配置 etc/hadoop/hadoop-env.sh文件-->修改JAVA_HOME，

export JAVA_HOME=/usr/lib/jvm/java-1.7.0

（四）单机模式运行例程

1、hadoop主目录，运行命令

mkdir input

cp ./etc/hadoop/*.xml input # 将配置文件作为输入文件

./bin/hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

cat ./output/*

2、简要分析结果

（五）伪分布式配置

1、配置

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop 的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

2、执行 namenode 的格式化

/hdfs namenode -format

3、开启 NaneNode 和 DataNode 守护进程

sbin/start-dfs.sh

4、查看状态，通过命令 jps 来判断是否成功启动

5、Web 界面 http://localhost:50070 来查看 Hadoop 的信息

（六）练习HDFS命令

1、建立子目录

2、拷贝本地文件到HDFS文件目录

3、查看HDFS 目录及文件信息

4、在HDFS目录直接拷贝文件

5、拷贝文件到本地目录

6、删除HDFS文件

7、删除HDFS目录

（七）Hadoop伪分布式实例-WordCount

1、创建用户目录

bin/hdfs dfs -mkdir -p /user/hadoop

2、在用户目录下创建 input

bin/hdfs dfs -mkdir input

3、将etc/hadoop下的xml文件拷贝到input

bin/hdfs dfs -put etc/hadoop/*.xml input

复制后，可查看目录中的内容，bin/hdfs dfs -ls input

4、运行wordcount

bin/hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

5、查看运行结果

bin/hdfs dfs -cat output/*

6、也可以将运行结果取回到本地

四、分析总结、撰写实验报告

1、说明主要过程和结果

2、对结果简要分析

3、对hadoop认识体会

（1）安装java JDK

（2）配置环境变量

使配置文件生效

在hadoop/etc/hadoop/hadoop-env.sh配置环境变量

另外还可以单独配置

安装ssh

开启服务

分析总结：

本次的实验主要是环境的搭建，实在Ubuntu上边进行搭建的，按照一般的流程进行JDK的安装，和环境变量的设置，是一般的流程，对于Hadoop的环境搭建是第一次，其中遇到了很多问题，反复试了几次，在晚上也搜了一些资料，最后是终于搞定。

Hadoop是借助开源的力量在Google的三篇论文的基础上进行的一次实验，之所以能够快速的风靡，是因为他为我们提供了独特的存储方式，使我们可以通过数据处理工具与数据进行快速高效的处理，另外强大的容错能力也是很多大型企业选择的一个重要原因，总的来说使用Hadoop对企业的成本效益有巨大的好处。

Hadoop是在Lucene和Nutch的基础上发展起来的。Lucene并不是一个应用程序，只是提供了一个Java的全安稳搜索引擎应用，可以方便的嵌入到各种实际应用的中文检索中来。而Hadoop做为存储分布式的文件系统，具有越来越重要的作用。