实验一 hadoop 安装配置
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验一hadoop 安装配置
一、实验目的
掌握hadoop平台安装配置方法,认识hadoop平台构成;熟悉hadoop平台基本命令的使用。
二、实验内容
1、安装配置hadoop平台
2、熟悉hadoop常用命令
3、运行MapReduce例程
三、实验步骤
(一)安装java JDK
查看java是否安装,如果没有先安装java
(二)ssh配置
1、用ssh localhost登录,查看ssh无密码登录是否配置;
2、如果没有配置,执行命令:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys (三)下载、安装hadoop
1、下载hadoop2.6.0
2、解压hadoop-2.6.0.tar, tar -xzvf hadoop-2.6.0.tar.gz
3、配置 etc/hadoop/hadoop-env.sh文件-->修改JAVA_HOME,
export JAVA_HOME=/usr/lib/jvm/java-1.7.0
(四)单机模式运行例程
1、hadoop主目录,运行命令
mkdir input
cp ./etc/hadoop/*.xml input # 将配置文件作为输入文件
./bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'
cat ./output/*
2、简要分析结果
(五)伪分布式配置
1、配置
Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop 的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。
2、执行 namenode 的格式化
/hdfs namenode -format
3、开启 NaneNode 和 DataNode 守护进程
sbin/start-dfs.sh
4、查看状态,通过命令 jps 来判断是否成功启动
5、Web 界面 http://localhost:50070 来查看 Hadoop 的信息
(六)练习HDFS命令
1、建立子目录
2、拷贝本地文件到HDFS文件目录
3、查看HDFS 目录及文件信息
4、在HDFS目录直接拷贝文件
5、拷贝文件到本地目录
6、删除HDFS文件
7、删除HDFS目录
(七)Hadoop伪分布式实例-WordCount
1、创建用户目录
bin/hdfs dfs -mkdir -p /user/hadoop
2、在用户目录下创建 input
bin/hdfs dfs -mkdir input
3、将etc/hadoop下的xml文件拷贝到input
bin/hdfs dfs -put etc/hadoop/*.xml input
复制后,可查看目录中的内容,bin/hdfs dfs -ls input
4、运行wordcount
bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'
5、查看运行结果
bin/hdfs dfs -cat output/*
6、也可以将运行结果取回到本地
四、分析总结、撰写实验报告
1、说明主要过程和结果
2、对结果简要分析
3、对hadoop认识体会
(1)安装java JDK
(2)配置环境变量
使配置文件生效
在hadoop/etc/hadoop/hadoop-env.sh配置环境变量
另外还可以单独配置
安装ssh
开启服务
分析总结:
本次的实验主要是环境的搭建,实在Ubuntu上边进行搭建的,按照一般的流程进行JDK的安装,和环境变量的设置,是一般的流程,对于Hadoop的环境搭建是第一次,其中遇到了很多问题,反复试了几次,在晚上也搜了一些资料,最后是终于搞定。
Hadoop是借助开源的力量在Google的三篇论文的基础上进行的一次实验,之所以能够快速的风靡,是因为他为我们提供了独特的存储方式,使我们可以通过数据处理工具与数据进行快速高效的处理,另外强大的容错能力也是很多大型企业选择的一个重要原因,总的来说使用Hadoop对企业的成本效益有巨大的好处。
Hadoop是在Lucene和Nutch的基础上发展起来的。Lucene并不是一个应用程序,只是提供了一个Java的全安稳搜索引擎应用,可以方便的嵌入到各种实际应用的中文检索中来。而Hadoop做为存储分布式的文件系统,具有越来越重要的作用。