大数据实例:网站用户行为分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
山西大学研究生项目设计报告(2015 ---- 2016学年第1学期)
学院(中心、所):计算机与信息技术学院
专业名称:软件工程(专硕)
课程名称:大数据处理
论文题目:网站用户行为分析
授课教师(职称):杜亮
研究生姓名:温杰
年级:2016级
学号:201622405011
成绩:
评阅日期:
山西大学研究生学院
2016年12月20日
大数据实例:网站用户行为分析
大数据实例:网站用户行为分析 (2)
一、案例简介 (4)
二、案例目的 (4)
三、软件工具 (4)
四、案例任务 (4)
五、实验步骤 (5)
5.1、实验步骤一:实验环境准备 (5)
5.1.1、linux系统的安装 (5)
5.1.2、Hadoop的安装 (6)
5.1.3、MySQL的安装 (6)
5.1.4、HBase的安装 (8)
5.1.5、Hive的安装 (8)
5.1.6、Sqoop的安装 (10)
5.1.7、Eclipse安装 (12)
5.2、实验步骤二:本地数据集上传到数据参考Hive (12)
5.2.1、实验数据集的下载 (12)
5.2.2、解压下载得到的数据集到指定目录 (12)
5.2.3、数据集的预处理 (13)
5.3、实验步骤三:Hive数据分析 (15)
5.4、实验步骤四:Hive、MySQL、HBase数据互导 (19)
5.4.1、Hive预操作 (19)
5.4.2、使用Sqoop将数据从Hive导入MySQL (20)
5.4.3、使用Sqoop将数据从MySQL导入HBase (21)
5.5、实验步骤五:利用R进行数据可视化分析 (22)
5.5.1、R安装 (22)
5.5.2、可视化分析MySQL中的数据 (23)
一、案例简介
本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。
二、案例目的
1、熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;
2、了解大数据处理的基本流程;
3、熟悉数据预处理方法;
4、熟悉在不同类型数据库之间进行数据相互导入导出;
5、熟悉使用R语言进行可视化分析;
6、熟悉使用Elipse编写Java程序操作HBase数据库。
三、软件工具
图1、软件总体概览图
四、案例任务
1、安装Linux操作系统
2、安装关系型数据库MySQL
3、安装大数据处理框架Hadoop
4、安装列族数据库HBase
5、安装数据仓库Hive
6、安装Sqoop
7、安装R
8、安装Eclipse
9、对文本文件形式的原始数据集进行预处理
10、把文本文件的数据集导入到数据仓库Hive中
11、对数据仓库Hive中的数据进行查询分析
12、使用Sqoop将数据从Hive导入MySQL
13、使用Sqoop将数据从MySQL导入HBase
14、使用R对MySQL中的数据进行可视化分析
图2、案例所涉及操作总体概览图
五、实验步骤
5.1、实验步骤一:实验环境准备
5.1.1、linux系统的安装
该部分内容略去。
5.1.2、Hadoop的安装
该部分内容详见另一篇参考文档:《Ubuntu伪分布式安装Hadoop详细步骤》.
5.1.3、MySQL的安装
⒈使用如下命令进行安装MySQL:
2.启动MySQL服务器:
3.确认是否成功:
4.进入MySQL Shell界面:
5.解决利用Sqoop导入MySQL中文乱码的问题
导致导入时中文乱码的原因是character_set_server默认设置为latin1,可以单个设置修改编码方式set character_set_server=utf8;但是重启后会失效,建议使用以下方式修改编码方式。如下图:
重启MySQL服务:service mysql restart;登录MySQL后查看MySQL设置的编码。如下图所示:
5.1.4、HBase的安装
该部分内容略去。
5.1.5、Hive的安装
1.下载并解压Hive源程序:Hive下载链接
2.使用如下命令进入到解压到的目录,重命名解压目录为Hive-1.2.1,修改Hive-1.2.1目录所有者为wenjie.
cd /usr/local/
sudo mv apache-hive-1.2.1-bin Hive-1.2.1
sudo chown wenjie Hive-1.2.1 –R
3.配置环境变量
为了方便使用,我们把hive命令加入到环境变量中去,命令:gedit ~/.bashrc 文件,在其中加入代码:
export HIVE_HOME=/usr/local/Hive-1.2.1
export PATH=$PATH:$HIVE_HOME/bin
保存退出后,命令source ~/.bashrc,使配置生效。
4.修改/usr/local/Hive-1.2.1/conf下的hive-site.xml
将hive-default.xml.template重命名为hive-default.xml;新建一个文件touch hive-site.xml,并在hive-site.xml中粘贴如下配置信息。