Wiley大数据_本地安装Hadoop和Hive_SongPingping

Wiley:大数据工程师实验报告

云课堂昵称:SongPingping实验日期:2016-07-19一、实验题目

理解Hadoop生态系统实验

二、实验要求

1.在Linux操作系统下,安装Hadoop

1.1在Linux里安装SUN JDK1.7

1.2在Apache网站下载Hadoop-1.0.4并安装

2.在Hadoop上安装Hive

2.1到Apache Hive网站下载0.11.0版本的Hive

2.2安装Hive

三、操作步骤

1.安装Hadoop以及jdk1.7

1.已准备好Linux操作系统:

1.1安装sun jdk1.7

准备sun jdk1.7的linux安装包,通过putty上传到虚拟机上apache路径下:

切换到本地jdk安装包路径,cmd,输入命令:pscp jdk1.7.0_79.gz spark@xxx:~/home/apache/

准备环境,配置ssh以及无须密码登录ssh

1.安装ssh server,输入命令:sudo apt install openssh-server,输入y,会自动下载软件。

2.安装ssh client,输入命令:sudo apt install openssh-client,这里这个命令没有起效果,一直没安装上去client,查看服务也是没有,后来通过搜索找到,输入eval‘ssh-agent’,然后配置ssh公钥私钥自动登录localhost,

可以免密码登录ssh

配置hadoop跟jdk环境解压hadoop、jdk

在.bashrc配置

Jdk在上图已配置好,进行$source~/.bashrc才会立即生效。

输入java-version,会出现java版本信息,否则说明安装未成功

切换到hadoop conf下,配置core-site.xml文件

mapred-site配置

Hdfs-site配置

到hdfs-site.xml,说明配置结束,输入$cd~/apache/hadoop-1.0.4/

$bin/hadoop namenode-format

这里说下安装过程遇到哪些错误:

1.配置文件内容标签写错

2.配置文件name名称写错,或者路径写错

3.Hadoop下起的临时文件夹,hadoop_temp/hdfs/data/因检测权限不符合来自动关闭退除进程。解决办法:根据日志提示修改,从头捋一遍配置文件信息。

4.然后$bin/hadoop namdenode-format输入,启动namedone成功

启动hadoop,输入命令:$bin/start-all.sh,如果没报错说明启动成功,输入jps,可查看hadoop 启动成功。

用浏览器打开:

http://localhost:50070/

http://localhost:50030/

http://localhost:50060/ namenode浏览器窗口截图如下:

这样单点hadoop安装就完成。

实验报告里面强调namenode格式化多次后需要查看data、name的版本问题,统一它们的版本,不然其他进程都能启动正常,但是datanode却没有启动起来。查看版本命令:$cat hadoop_temp/dfs/data/current/VERSION

$cat hadoop_temp/dfs/name/current/VERSION执行这个命令需要进入hadoop目录

解决办法是将datanode下的namespace下的namespaceID值改成namenode中一样

2.安装Hive

介绍:Hive是基于Hadoop的数据仓库工具,可以用来进行数据的抽取、转换、加载(即常说的ETL)。提供类似的sql的查询语言,被称为HiveQL。

安装步骤

2.1抽取并解压

进入apahe文件目录,解压Hive:

输入命令:tar-xzf hive-0.11.0.tar.gz

2.2更新环境变量

用gedit打开.bashrc文件$sudo gedit~/.bashrc

添加如图内容:

使用以下命令,读取最新配置

$source~/.bashrc

2.3创建HDFS目录

创建目录之前,查看根目录下有哪些hdfs目录

$cd~/apache/hadoop-1.0.4/

$bin/hadoop fs-ls/

注:使用hadoop命令时,必须保持hadoop为启动状态,下同。

1、Hadoop fs:Hadoop FS Shell命令,可以操作HDFS文件系统以及本地文件系统。后面的参数都是URI路径,URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中默认scheme。

2、/:这个代表根目录,但这里是HDFS中的根目录

接下来使用命令创建临时目录、数据仓库目录,同时修改目录权限:$bin/hadoop fs-mkdir/tmp

$bin/hadoop fs-mkdir-p/user/hive/warehouse

$bin/hadoop fs-chmod g+w/tmp

$bin/hadoop fs-chmod g+w/user/hive/warehouse

1、mkdir:和Linux文件系统类似,在HDFS中创建目录。p既parent,如果创建的目录的父目录不存在,则加上p参数就可以同时创建父目录。

2、chmod:和Linux文件系统类似,g表示文件和目录拥有者所在的用户组,+既增加权限,w为可写权限,g+w合起来就是给所有者同组用户增加写权限。

如图:

2.4复制模板文件

下面添加相关配置,前往conf目录,可以看到里面已经预留几个模板文件:

$cd~/apache/hive-0.11.0/conf/

$ls

将需要的两个模板文件进行复制,并重新命名:

$cp hive-default.xml.template hive-site.xml

$cp hive-env.sh.template hive-env.sh

2.5编辑hive-site.xml

打开该文件,查看javax.jdo.option.ConnectionURL属性如下:

可以看到,默认的数据库是derby,数据库地址就在hive主目录,修改成如下:

2.6编辑hive-env.sh

打开hive-env.sh,添加下面的配置

2.7前往Hive目录,启动Hive

$cd~/apache/hive-0.11.0/

$bin/hive

hive>show database;

在hive命令行下,输入exit;即可退出。

四、实验结果

Jdk、hadopp、hive安装成功,虽说万事开头难,但是hadoop还是如愿的搭建好。

五、总结反思

在安装hadoop时候分好几步,每步都要最好检查来比对,不然出错不好找。勤查日志,看日志,利用搜索引擎来找错误。

六、作业提交

1.请将本文档按照《Wiley大数据_本地安装Hadoop和Hive_SongPingping》的名称命名;

2.请将本文档、数据文件打包以附件形式上传到课程作业部分

相关主题
相关文档
最新文档