Wiley大数据_本地安装Hadoop和Hive_SongPingping
Wiley:大数据工程师实验报告
云课堂昵称:SongPingping实验日期:2016-07-19一、实验题目
理解Hadoop生态系统实验
二、实验要求
1.在Linux操作系统下,安装Hadoop
1.1在Linux里安装SUN JDK1.7
1.2在Apache网站下载Hadoop-1.0.4并安装
2.在Hadoop上安装Hive
2.1到Apache Hive网站下载0.11.0版本的Hive
2.2安装Hive
三、操作步骤
1.安装Hadoop以及jdk1.7
1.已准备好Linux操作系统:
1.1安装sun jdk1.7
准备sun jdk1.7的linux安装包,通过putty上传到虚拟机上apache路径下:
切换到本地jdk安装包路径,cmd,输入命令:pscp jdk1.7.0_79.gz spark@xxx:~/home/apache/
准备环境,配置ssh以及无须密码登录ssh
1.安装ssh server,输入命令:sudo apt install openssh-server,输入y,会自动下载软件。
2.安装ssh client,输入命令:sudo apt install openssh-client,这里这个命令没有起效果,一直没安装上去client,查看服务也是没有,后来通过搜索找到,输入eval‘ssh-agent’,然后配置ssh公钥私钥自动登录localhost,
可以免密码登录ssh
配置hadoop跟jdk环境解压hadoop、jdk
在.bashrc配置
Jdk在上图已配置好,进行$source~/.bashrc才会立即生效。
输入java-version,会出现java版本信息,否则说明安装未成功
切换到hadoop conf下,配置core-site.xml文件
mapred-site配置
Hdfs-site配置
到hdfs-site.xml,说明配置结束,输入$cd~/apache/hadoop-1.0.4/
$bin/hadoop namenode-format
这里说下安装过程遇到哪些错误:
1.配置文件内容标签写错
2.配置文件name名称写错,或者路径写错
3.Hadoop下起的临时文件夹,hadoop_temp/hdfs/data/因检测权限不符合来自动关闭退除进程。解决办法:根据日志提示修改,从头捋一遍配置文件信息。
4.然后$bin/hadoop namdenode-format输入,启动namedone成功
启动hadoop,输入命令:$bin/start-all.sh,如果没报错说明启动成功,输入jps,可查看hadoop 启动成功。
用浏览器打开:
http://localhost:50070/
http://localhost:50030/
http://localhost:50060/ namenode浏览器窗口截图如下:
这样单点hadoop安装就完成。
实验报告里面强调namenode格式化多次后需要查看data、name的版本问题,统一它们的版本,不然其他进程都能启动正常,但是datanode却没有启动起来。查看版本命令:$cat hadoop_temp/dfs/data/current/VERSION
$cat hadoop_temp/dfs/name/current/VERSION执行这个命令需要进入hadoop目录
解决办法是将datanode下的namespace下的namespaceID值改成namenode中一样
2.安装Hive
介绍:Hive是基于Hadoop的数据仓库工具,可以用来进行数据的抽取、转换、加载(即常说的ETL)。提供类似的sql的查询语言,被称为HiveQL。
安装步骤
2.1抽取并解压
进入apahe文件目录,解压Hive:
输入命令:tar-xzf hive-0.11.0.tar.gz
2.2更新环境变量
用gedit打开.bashrc文件$sudo gedit~/.bashrc
添加如图内容:
使用以下命令,读取最新配置
$source~/.bashrc
2.3创建HDFS目录
创建目录之前,查看根目录下有哪些hdfs目录
$cd~/apache/hadoop-1.0.4/
$bin/hadoop fs-ls/
注:使用hadoop命令时,必须保持hadoop为启动状态,下同。
1、Hadoop fs:Hadoop FS Shell命令,可以操作HDFS文件系统以及本地文件系统。后面的参数都是URI路径,URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中默认scheme。
2、/:这个代表根目录,但这里是HDFS中的根目录
接下来使用命令创建临时目录、数据仓库目录,同时修改目录权限:$bin/hadoop fs-mkdir/tmp
$bin/hadoop fs-mkdir-p/user/hive/warehouse
$bin/hadoop fs-chmod g+w/tmp
$bin/hadoop fs-chmod g+w/user/hive/warehouse
1、mkdir:和Linux文件系统类似,在HDFS中创建目录。p既parent,如果创建的目录的父目录不存在,则加上p参数就可以同时创建父目录。
2、chmod:和Linux文件系统类似,g表示文件和目录拥有者所在的用户组,+既增加权限,w为可写权限,g+w合起来就是给所有者同组用户增加写权限。
如图:
2.4复制模板文件
下面添加相关配置,前往conf目录,可以看到里面已经预留几个模板文件:
$cd~/apache/hive-0.11.0/conf/
$ls
将需要的两个模板文件进行复制,并重新命名:
$cp hive-default.xml.template hive-site.xml
$cp hive-env.sh.template hive-env.sh
2.5编辑hive-site.xml
打开该文件,查看javax.jdo.option.ConnectionURL属性如下:
可以看到,默认的数据库是derby,数据库地址就在hive主目录,修改成如下:
2.6编辑hive-env.sh
打开hive-env.sh,添加下面的配置
2.7前往Hive目录,启动Hive
$cd~/apache/hive-0.11.0/
$bin/hive
hive>show database;
在hive命令行下,输入exit;即可退出。
四、实验结果
Jdk、hadopp、hive安装成功,虽说万事开头难,但是hadoop还是如愿的搭建好。
五、总结反思
在安装hadoop时候分好几步,每步都要最好检查来比对,不然出错不好找。勤查日志,看日志,利用搜索引擎来找错误。
六、作业提交
1.请将本文档按照《Wiley大数据_本地安装Hadoop和Hive_SongPingping》的名称命名;
2.请将本文档、数据文件打包以附件形式上传到课程作业部分