Wiley大数据_本地安装Hadoop和Hive_SongPingping

Wiley：大数据工程师实验报告

云课堂昵称：SongPingping实验日期：2016-07-19一、实验题目

理解Hadoop生态系统实验

二、实验要求

1.在Linux操作系统下，安装Hadoop

1.1在Linux里安装SUN JDK1.7

1.2在Apache网站下载Hadoop-1.0.4并安装

2.在Hadoop上安装Hive

2.1到Apache Hive网站下载0.11.0版本的Hive

2.2安装Hive

三、操作步骤

1.安装Hadoop以及jdk1.7

1.已准备好Linux操作系统：

1.1安装sun jdk1.7

准备sun jdk1.7的linux安装包，通过putty上传到虚拟机上apache路径下：

切换到本地jdk安装包路径，cmd，输入命令：pscp jdk1.7.0_79.gz spark@xxx:~/home/apache/

准备环境，配置ssh以及无须密码登录ssh

1.安装ssh server,输入命令:sudo apt install openssh-server，输入y，会自动下载软件。

2.安装ssh client,输入命令：sudo apt install openssh-client,这里这个命令没有起效果，一直没安装上去client，查看服务也是没有，后来通过搜索找到，输入eval‘ssh-agent’，然后配置ssh公钥私钥自动登录localhost，

可以免密码登录ssh

配置hadoop跟jdk环境解压hadoop、jdk

在.bashrc配置

Jdk在上图已配置好，进行$source~/.bashrc才会立即生效。

输入java-version,会出现java版本信息，否则说明安装未成功

切换到hadoop conf下，配置core-site.xml文件

mapred-site配置

Hdfs-site配置

到hdfs-site.xml，说明配置结束，输入$cd~/apache/hadoop-1.0.4/

$bin/hadoop namenode-format

这里说下安装过程遇到哪些错误：

1.配置文件内容标签写错

2.配置文件name名称写错，或者路径写错

3.Hadoop下起的临时文件夹，hadoop_temp/hdfs/data/因检测权限不符合来自动关闭退除进程。解决办法：根据日志提示修改，从头捋一遍配置文件信息。

4.然后$bin/hadoop namdenode-format输入，启动namedone成功

启动hadoop，输入命令：$bin/start-all.sh,如果没报错说明启动成功，输入jps，可查看hadoop 启动成功。

用浏览器打开：

http://localhost:50070/

http://localhost:50030/

http://localhost:50060/ namenode浏览器窗口截图如下：

这样单点hadoop安装就完成。

实验报告里面强调namenode格式化多次后需要查看data、name的版本问题，统一它们的版本，不然其他进程都能启动正常，但是datanode却没有启动起来。查看版本命令：$cat hadoop_temp/dfs/data/current/VERSION

$cat hadoop_temp/dfs/name/current/VERSION执行这个命令需要进入hadoop目录

解决办法是将datanode下的namespace下的namespaceID值改成namenode中一样

2.安装Hive

介绍：Hive是基于Hadoop的数据仓库工具,可以用来进行数据的抽取、转换、加载（即常说的ETL）。提供类似的sql的查询语言，被称为HiveQL。

安装步骤

2.1抽取并解压

进入apahe文件目录，解压Hive：

输入命令：tar-xzf hive-0.11.0.tar.gz

2.2更新环境变量

用gedit打开.bashrc文件$sudo gedit~/.bashrc

添加如图内容：

使用以下命令，读取最新配置

$source~/.bashrc

2.3创建HDFS目录

创建目录之前，查看根目录下有哪些hdfs目录

$cd~/apache/hadoop-1.0.4/

$bin/hadoop fs-ls/

注：使用hadoop命令时，必须保持hadoop为启动状态，下同。

1、Hadoop fs:Hadoop FS Shell命令,可以操作HDFS文件系统以及本地文件系统。后面的参数都是URI路径，URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定,就会使用配置中默认scheme。

2、/:这个代表根目录，但这里是HDFS中的根目录

接下来使用命令创建临时目录、数据仓库目录，同时修改目录权限：$bin/hadoop fs-mkdir/tmp

$bin/hadoop fs-mkdir-p/user/hive/warehouse

$bin/hadoop fs-chmod g+w/tmp

$bin/hadoop fs-chmod g+w/user/hive/warehouse

1、mkdir：和Linux文件系统类似，在HDFS中创建目录。p既parent，如果创建的目录的父目录不存在，则加上p参数就可以同时创建父目录。

2、chmod：和Linux文件系统类似，g表示文件和目录拥有者所在的用户组，+既增加权限，w为可写权限，g+w合起来就是给所有者同组用户增加写权限。

如图：

2.4复制模板文件

下面添加相关配置，前往conf目录，可以看到里面已经预留几个模板文件：

$cd~/apache/hive-0.11.0/conf/

$ls

将需要的两个模板文件进行复制，并重新命名：

$cp hive-default.xml.template hive-site.xml

$cp hive-env.sh.template hive-env.sh

2.5编辑hive-site.xml

打开该文件，查看javax.jdo.option.ConnectionURL属性如下：

可以看到，默认的数据库是derby，数据库地址就在hive主目录，修改成如下：

2.6编辑hive-env.sh

打开hive-env.sh，添加下面的配置

2.7前往Hive目录，启动Hive

$cd~/apache/hive-0.11.0/

$bin/hive

hive>show database;

在hive命令行下，输入exit;即可退出。

四、实验结果

Jdk、hadopp、hive安装成功，虽说万事开头难，但是hadoop还是如愿的搭建好。

五、总结反思

在安装hadoop时候分好几步，每步都要最好检查来比对，不然出错不好找。勤查日志，看日志，利用搜索引擎来找错误。

六、作业提交

1.请将本文档按照《Wiley大数据_本地安装Hadoop和Hive_SongPingping》的名称命名；

2.请将本文档、数据文件打包以附件形式上传到课程作业部分