大数据集群配置过程_hive篇

合集下载

我学大数据技术(hadoop2.7+hbase1.0+hive1.2)

我学大数据技术(hadoop2.7+hbase1.0+hive1.2)

这个地方有点奇怪,应该是 1.7.0_45 ,我查一下。系统默认安装了 java 我全部删除,重新安 装 先查询一下有哪些 jdk : rpm -qa jdk 然后 rpm -e 把查询的都删除 然后重新安装: rpm -ivh jdk-7u45-linux-x64.rpm
2、切换到 hadoop 用户,创建安装所需要的文件夹
2015 年 8 月 13 日 17:12 1、关机和重启 ?
1 shutdown -h now 2 shutdown -r now
2、创建用户,并设置密码 ?
1 useradd wukong ?
1 d wukong
根据提示输入密码,回车,并再确认输入一次密码。 3、查看,删除用户 ?
1 cat /etc/passwd ?
Prerequisites
Install Java. See the Hadoop Wiki for known good versions. Download a stable version of Hadoop from Apache mirrors. /hadoop/HadoopJavaVersions 说明 下载地址 java1.7.45 /technetwork/java/javase/downloads/index-jdk5-jsp-142662.html
来自 </allman90/blog/295173>
2、VMware 虚拟机的安装配置
2015 年 8 月 13 日 21:08
一、基础篇
1、环境的搭建 基础支撑环境的搭建
首先基于 VMware 搭建一个简单机器测试集群环境 1.1VM13808.html?ald 各位可以随意网站下载,系统用 64 位。

hive环境搭建

hive环境搭建

hive环境搭建注:本次搭建是基于已经搭建好的hadoop3集群搭建的,故对于hadoop3搭建不做介绍,且本次搭建是以本地模式为例特别关注:由于hadoop3xy不兼容hive2xy,如使⽤hive安装会出现各种问题,故使⽤hive3作为本次环境搭建1.安装mysql1.1安装mysql数据库yum install -y mysql-server1.2对字符集进⾏设置:进⼊/etc/f⽂件中,加⼊default-character-set=utf8,代码如下:1.3启动mysql服务,代码如下:service mysqld start #启动mysql服务service mysqld status #查看mysql是否启动systemctl enable mysqld #设置myql开机启动1systemctl daemon-reload #设置myql开机启动21.4设置myql的root密码mysql -uroot -p ,第⼀次进⼊时,默认密码为空,输⼊密码时直接回车可直接进⼊set password for 'root'@'localhost' = password('123456'); 设置密码为1234561.5新建root1⽤户,并且赋予两个⽤户远程登陆权限;create user 'root1'@'%' identified by '123456'; #如果使⽤root作为连接⽤户此步可以省略,本次安装使⽤root⽤户作为连接⽤户grant all on *.* to'root1'@'%'; #如果使⽤root作为连接⽤户此步可以省略,本次安装使⽤root⽤户作为连接⽤户grant all on *.* to'root'@'%';2.1配置hive-env.sh ,进⼊conf⽬录,cp hive-env.sh.template hive-env.sh ,打开 hive-env.sh⽂件:export HADOOP_HOME=/app/hadoop-3.2.1export HIVE_CONF_DIR=/app/hive-3.1.2/conf2.2配置hive-site.xml,进⼊conf⽬录,cp hive-default.xml.template hive-site.xml,打开hive-env.sh⽂件,对于如下内容有则修改,⽆则新增:<property><name>system:java.io.tmpdir</name><value>/user/hive/warehouse</value></property><property><name>system:</name><value>${}</value></property><property><name>hive.metastore.db.type</name><value>mysql</value></property><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true</value></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>root</value><description>user name for connecting to mysql server</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>root</value><description>password for connecting to mysql server</description></property>2.3创建⽬录:hadoop fs -mkdir -p /tmphadoop fs -mkdir -p /user/hive/warehousehadoop fs -chmod g+w /tmphadoop fs -chmod g+w /user/hive/warehouse2.4替换低版本的guava.jar⽂件,否则初始化时会报错:错误⼀:Exception in thread "main" ng.NoSuchMethodError: mon.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V原因:hadoop和hive的两个guava.jar版本不⼀致两个位置分别位于下⾯两个⽬录: - /usr/local/hive/lib/ - /usr/local/hadoop/share/hadoop/common/lib/解决办法:除低版本的那个,将⾼版本的复制到低版本⽬录下2.5删除hive-site.xml中的&#8特殊字符,否则初始化时会报如下错误:错误⼆:Exception in thread "main" ng.RuntimeException: com.ctc.wstx.exc.WstxParsingException: Illegal character entity: expansion character (code 0x8at [row,col,system-id]: [3224,96,"file:/app/hive-3.1.2/conf/hive-site.xml"]原因: hive-site.xml配置⽂件中,3224⾏有特殊字符解决办法:进⼊hive-site.xml⽂件,跳转到对应⾏,删除⾥⾯的&#8特殊字符即可2.6上次jdbc驱动⾄hive/lib⽬录下,否则会报如下错误:错误三:org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driverUnderlying cause: ng.ClassNotFoundException : com.mysql.jdbc.Driver原因:缺少jdbc驱动解决办法:上传jdbc( mysql-connector-java-5.1.36-bin.jar )驱动到 hive的lib下2.7初始化hiveschematool -dbType mysql -initSchema2.8启动 metastore服务(不启⽤会报:HiveException ng.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient。

大数据部署方案

大数据部署方案

大数据部署方案1. 引言随着信息技术的发展和应用的普及,大数据技术的应用已经成为越来越多企业和组织的关注焦点。

大数据技术可以帮助企业从庞大的数据中挖掘出有价值的信息和洞见,为决策提供支持和指导。

本文将介绍大数据部署的方案,包括硬件、软件和网络的配置以及相关的安全措施。

2. 硬件配置大数据处理需要强大的计算和存储能力,所以在部署大数据系统时,需要考虑以下硬件配置:•处理器:选择高性能、多核心的处理器,如Intel Xeon系列。

•内存:大数据处理对内存要求较高,建议选择大容量的内存模块,如64GB或以上。

•存储:大数据系统需要大量的存储空间来存储数据和处理中间结果,可以选择高速的固态硬盘(SSD)或者大容量的机械硬盘(HDD)。

•网络接口:建议选择支持千兆以太网接口,以保证数据传输速度。

•机架和散热:对于大规模的集群部署,可以选择机架服务器,并注意散热风扇和冷却系统的配置。

3. 软件配置大数据系统的软件配置是整个部署方案的关键,常见的大数据软件包括Hadoop、Spark、Hive等,以下是软件配置的主要内容:3.1 HadoopHadoop是大数据处理的核心软件,它提供了分布式存储和计算的能力。

在部署Hadoop时,需要考虑以下几个方面:•Hadoop版本选择:根据实际需求选择稳定性较高的版本,如Apache Hadoop 3.0。

•配置文件修改:根据硬件配置和实际需求修改Hadoop的配置文件,如核心配置文件hadoop-env.sh、存储配置文件hdfs-site.xml等。

•节点规划:根据数据规模和计算需求规划Hadoop的集群节点,包括Master节点和多个Worker节点。

•高可用性配置:为了提供高可用性,可以使用Hadoop的HDFS和YARN的高可用特性,如NameNode的HA和ResourceManager的HA配置。

•安全配置:根据实际需求配置Hadoop的安全设置,如Kerberos认证、访问控制列表(ACL)、加密文件系统等。

使用Hive进行数据处理和分析的实战案例

使用Hive进行数据处理和分析的实战案例

使用Hive进行数据处理和分析的实战案例数据处理和分析在当今大数据时代中变得越来越重要。

为了满足这一需求,Hive在Hadoop生态系统中扮演了重要的角色。

Hive是一个基于Hadoop的数据仓库基础设施,它提供了一个类似于SQL的查询语言(HiveQL)来处理和分析大规模结构化数据。

本文将通过一个实际案例来展示如何使用Hive进行数据处理和分析。

任务是分析一个电子商务公司的销售数据,了解最受欢迎的产品类别和购买时段,以及不同客户群体的购买习惯。

首先,我们需要准备好销售数据。

假设我们已经有一个包含销售记录的CSV 文件,其中每一行包含产品ID、产品名称、产品类别、销售数量、销售日期等字段。

我们可以使用Hive将CSV文件导入Hive表中,并创建一个与CSV文件结构相匹配的表。

以下是创建表的HiveQL语句:```sqlCREATE TABLE sales (product_id INT,product_name STRING,category STRING,quantity INT,sales_date DATE)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STORED AS TEXTFILE;```导入数据到Hive表中的语句如下:```sqlLOAD DATA LOCAL INPATH '/path/to/sales.csv' INTO TABLE sales;```现在,我们已经将销售数据导入到Hive表中,可以开始进行数据处理和分析了。

首先,我们将分析最受欢迎的产品类别。

我们可以使用Hive的聚合函数和GROUP BY子句来完成这个任务。

以下是查询语句:```sqlSELECT category, SUM(quantity) AS total_quantityFROM salesGROUP BY categoryORDER BY total_quantity DESCLIMIT 5;```上述查询语句将按照产品类别对销售数据进行分组,并计算每个类别的销售总数量。

hive工作原理流程

hive工作原理流程

hive工作原理流程Hive工作原理流程Hive是一个基于Hadoop的数据仓库基础架构工具,用于处理大规模数据集。

它提供了类似于SQL的查询语言,称为HiveQL,使用户可以使用类似于传统关系型数据库的方式来处理和分析数据。

Hive工作原理流程可以分为数据导入、数据处理和数据导出三个主要步骤。

1. 数据导入在Hive中,数据通常是从外部存储系统(如HDFS)导入的。

首先,用户需要创建一个外部表,定义表的模式和数据存储位置。

然后,通过Hive的LOAD命令将数据加载到创建的表中。

在加载数据之前,Hive还支持数据预处理操作,例如数据清洗、转换和分区等。

当数据成功加载到表中后,就可以进行后续的数据处理操作。

2. 数据处理Hive的数据处理主要通过HiveQL查询语言来实现。

用户可以使用HiveQL编写类似于SQL的查询语句,对表中的数据进行查询、过滤、聚合和排序等操作。

Hive将HiveQL查询转换为一系列的MapReduce任务,并在Hadoop集群上执行这些任务。

在查询过程中,Hive会根据表的元数据信息进行优化,例如使用分区和索引来提高查询性能。

同时,Hive还支持自定义函数和用户自定义聚合函数(UDF和UDAF),以满足特定的数据处理需求。

3. 数据导出在数据处理完成后,用户可以将结果数据导出到外部存储系统或其他应用程序中进行进一步分析或展示。

Hive提供了多种导出数据的方式,例如INSERT操作、CTAS(Create Table As Select)语句和INSERT OVERWRITE语句等。

用户可以根据需要选择合适的导出方式,并定义导出数据的格式和存储位置。

在导出数据之前,Hive还支持数据转换和格式化操作,以满足导出需求。

Hive的工作原理流程可以概括为数据导入、数据处理和数据导出三个主要步骤。

通过定义表结构和加载数据,用户可以在Hive中进行数据处理操作,使用HiveQL查询语言对数据进行查询、过滤和聚合等操作。

搭建hadoop集群的步骤

搭建hadoop集群的步骤

搭建hadoop集群的步骤Hadoop是一个开源的分布式计算平台,用于存储和处理大规模的数据集。

在大数据时代,Hadoop已经成为了处理海量数据的标准工具之一。

在本文中,我们将介绍如何搭建一个Hadoop集群。

步骤一:准备工作在开始搭建Hadoop集群之前,需要进行一些准备工作。

首先,需要选择适合的机器作为集群节点。

通常情况下,需要至少三台机器来搭建一个Hadoop集群。

其次,需要安装Java环境和SSH服务。

最后,需要下载Hadoop的二进制安装包。

步骤二:配置Hadoop环境在准备工作完成之后,需要对Hadoop环境进行配置。

首先,需要编辑Hadoop的配置文件,包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。

其中,core-site.xml用于配置Hadoop的核心参数,hdfs-site.xml用于配置Hadoop分布式文件系统的参数,mapred-site.xml用于配置Hadoop的MapReduce参数,yarn-site.xml用于配置Hadoop的资源管理器参数。

其次,需要在每个节点上创建一个hadoop用户,并设置其密码。

最后,需要在每个节点上配置SSH免密码登录,以便于节点之间的通信。

步骤三:启动Hadoop集群在完成Hadoop环境的配置之后,可以启动Hadoop集群。

首先,需要启动Hadoop的NameNode和DataNode服务。

NameNode是Hadoop分布式文件系统的管理节点,负责管理文件系统的元数据。

DataNode是Hadoop分布式文件系统的存储节点,负责实际存储数据。

其次,需要启动Hadoop的ResourceManager和NodeManager服务。

ResourceManager 是Hadoop的资源管理器,负责管理集群中的资源。

NodeManager是Hadoop的节点管理器,负责管理每个节点的资源。

如何利用Hive进行大数据查询和分析

如何利用Hive进行大数据查询和分析

如何利用Hive进行大数据查询和分析第一章:介绍Hive以及其在大数据领域的应用Hive是一个基于Hadoop的数据仓库基础设施,它使用类似SQL的查询语言(HQL)对存储在Hadoop集群中的大规模数据进行查询和分析。

Hive能够将结构化的数据映射到Hadoop的分布式文件系统(HDFS)上,并通过内部的查询引擎将查询转化为MapReduce任务运行。

由于其灵活性和可扩展性,Hive在大数据领域得到了广泛的应用。

第二章:Hive的安装和配置使用Hive之前,首先需要安装和配置Hive环境。

首先,我们需要下载Hive的安装包,并解压到指定的目录。

然后,需要配置环境变量,将Hive相关的可执行文件添加到系统的PATH中。

接下来,编辑Hive的配置文件,设置一些基本的参数,例如Hadoop的路径、数据库连接等。

最后,启动Hive服务,验证安装和配置是否成功。

第三章:Hive表的创建与管理在Hive中,数据被组织成表,并使用表结构来描述数据的存储格式。

我们可以使用HQL语句来创建表,并指定表的名称、列名以及数据类型等。

除了创建表,我们还可以通过HQL语句来管理表,例如添加、删除或修改表的列。

此外,Hive还支持分区表和桶表等高级功能,可以提高查询效率。

第四章:数据的导入和导出在使用Hive进行查询和分析之前,我们需要将原始数据导入到Hive表中。

Hive提供了多种数据导入的方式,例如通过LOAD DATA语句从本地文件系统或HDFS加载数据,或者通过INSERT INTO语句将其他表中的数据插入到目标表中。

类似地,我们也可以使用Hive将查询结果导出到本地文件系统或HDFS中,以供后续的数据处理或分析使用。

第五章:Hive查询语言(HQL)的使用HQL是Hive的查询语言,其语法类似于传统的SQL语句,但也有一些不同之处。

比如,HQL支持复杂的嵌套查询和连接操作,并且可以使用用户自定义函数(UDF)扩展查询的功能。

Hadoop2.4、Hbase0.98、Hive集群安装配置手册

Hadoop2.4、Hbase0.98、Hive集群安装配置手册

Hadoop、Zookeeper、Hbase、Hive集群安装配置手册运行环境机器配置虚机CPU E5504*2 (4核心)、内存 4G、硬盘25G进程说明QuorumPeerMain ZooKeeper ensemble member DFSZKFailoverController Hadoop HA进程,维持NameNode高可用 JournalNode Hadoop HA进程,JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,保证数据高可用 NameNode Hadoop HDFS进程,名字节点DataNode HadoopHDFS进程, serves blocks NodeManager Hadoop YARN进程,负责 Container 状态的维护,并向 RM 保持心跳。

ResourceManager Hadoop YARN进程,资源管理 JobTracker Hadoop MR1进程,管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。

TaskTracker Hadoop MR1进程,manages the local Childs RunJar Hive进程HMaster HBase主节点HRegionServer HBase RegionServer, serves regions JobHistoryServer 可以通过该服务查看已经运行完的mapreduce作业记录应用 服务进程 主机/hostname 系统版本mysql mysqld10.12.34.14/ Centos5.810.12.34.15/h15 Centos5.8 HadoopZookeeperHbaseHiveQuorumPeerMainDFSZKFailoverControllerNameNodeNodeManagerRunJarHMasterJournalNodeJobHistoryServerResourceManagerDataNodeHRegionServer10.12.34.16/h16 Centos5.8 HadoopZookeeperHbaseHiveDFSZKFailoverControllerQuorumPeerMainHMasterJournalNodeNameNodeResourceManagerDataNodeHRegionServerNodeManager10.12.34.17/h17 Centos5.8 HadoopZookeeperHbaseHiveNodeManagerDataNodeQuorumPeerMainJournalNodeHRegionServer环境准备1.关闭防火墙15、16、17主机:# service iptables stop2.配置主机名a) 15、16、17主机:# vi /etc/hosts添加如下内容:10.12.34.15 h1510.12.34.16 h1610.12.34.17 h17b) 立即生效15主机:# /bin/hostname h1516主机:# /bin/hostname h1617主机:# /bin/hostname h173. 创建用户15、16、17主机:# useraddhduser密码为hduser# chown -R hduser:hduser /usr/local/4.配置SSH无密码登录a)修改SSH配置文件15、16、17主机:# vi /etc/ssh/sshd_config打开以下注释内容:#RSAAuthentication yes#PubkeyAuthentication yes#AuthorizedKeysFile .ssh/authorized_keysb)重启SSHD服务15、16、17主机:# service sshd restartc)切换用户15、16、17主机:# su hduserd)生成证书公私钥15、16、17主机:$ ssh‐keygen ‐t rsae)拷贝公钥到文件(先把各主机上生成的SSHD公钥拷贝到15上的authorized_keys文件,再把包含所有主机的SSHD公钥文件authorized_keys拷贝到其它主机上)15主机:$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys16主机:$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'17主机:$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'15主机:# cat ~/.ssh/authorized_keys | ssh hduser@h16 'cat >> ~/.ssh/authorized_keys'# cat ~/.ssh/authorized_keys | ssh hduser@h17 'cat >> ~/.ssh/authorized_keys'5.Mysqla) Host10.12.34.14:3306b) username、passwordhduser@hduserZookeeper使用hduser用户# su hduser安装(在15主机上)1.下载/apache/zookeeper/2.解压缩$ tar ‐zxvf /zookeeper‐3.4.6.tar.gz ‐C /usr/local/配置(在15主机上)1.将zoo_sample.cfg重命名为zoo.cfg$ mv /usr/local/zookeeper‐3.4.6/conf/zoo_sample.cfg /usr/local/zookeeper‐3.4.6/conf/zoo.cfg2.编辑配置文件$ vi /usr/local/zookeeper‐3.4.6/conf/zoo.cfga)修改数据目录dataDir=/tmp/zookeeper修改为dataDir=/usr/local/zookeeper‐3.4.6/datab)配置server添加如下内容:server.1=h15:2888:3888server.2=h16:2888:3888server.3=h17:2888:3888server.X=A:B:C说明:X:表示这是第几号serverA:该server hostname/所在IP地址B:该server和集群中的leader交换消息时所使用的端口C:配置选举leader时所使用的端口3.创建数据目录$ mkdir /usr/local/zookeeper‐3.4.6/data4.创建、编辑文件$ vi /usr/local/zookeeper‐3.4.6/data/myid添加内容(与zoo.cfg中server号码对应):1在16、17主机上安装、配置1.拷贝目录$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.16:/usr/local/$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.17:/usr/local/2.修改myida)16主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1 修改为2b)17主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1修改为3启动$ cd /usr/local/zookeeper‐3.4.6/$./bin/zkServer.sh start查看状态:$./bin/zkServer.sh statusHadoop使用hduser用户# su hduser安装(在15主机上)一、安装Hadoop1.下载/apache/hadoop/common/2.解压缩$ tar ‐zxvf /hadoop‐2.4.0.tar.gz ‐C /usr/local/二、 编译本地库,主机必须可以访问internet。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据集群配置过程_hive篇JDDC_SEED_BIGDATA 2015-01-151.概述本篇文档主要讲解hive的安装过程。

Hadoop是安装hbase和hive的基础,即安装hbase和hive之前必须先安装hadoop并且hdfs和mapreduce必须都功能正常。

因为hbase和hive 其底层所使用都是应用hadoop的两个核心部分—hdfs和mapreduce。

在安装hadoop之前需要考滤操作系统的版本(32位还是64位)以及hbase和hive的版本,否则会引起jar包不支持而导致的jar包替换或jar包重新编译等问题。

Hadoop、hbase、hive的版本匹配信息如下:由于我们所使用的操作系统centos6.5是32位,而且安装的hadoop是hadoop2.2.0,所以本次安装的hive版本是0.12.0切记,在安装hbase之前一定先安装hadoop,而且要确保hadoop中的HDFS和MAPREDUCE都是可以正常使用的。

2.正文与hadoop和hbase不同,hive在安装的过程中不需要把hive的包分别发布到个节点上,只需要在namenode节点上hive包进行配置,但需要在配置的过程中指定各个datanode节点的主机名。

2.1下载安装mysql本次将Hive配置成Server模式,并且使用MySQL作为元数据数据库。

原则上MySQL不必要非得安装在namenode节点上,可以装在一个单独的服务器上,并进行远程联接。

本次技术检证,由于资源有限,把mysql安装在namenode节点上。

下载MySQL-5.6.22-1.linux_glibc2.5.i386.rpm-bundle.tar,参考下载地址/downloads/。

具体的安装以及root初始密码的修改请参考《linux下MySQL安装及设置》和《MySQL修改root密码的各种方法整理》这两篇文档。

2.2创建Hive元数据库创建数据库hive:create database if not exists hive;创建数据库用户hive:create user hive identified by 'hive2015';授权可以访问数据库hive的主机和用户:grant all on hive.* to 'hive'@'hadoop01' identified by 'hive2015';grant all on hive.* to 'hive'@'hadoop02' identified by 'hive2015';grant all on hive.* to 'hive'@'hadoop03' identified by 'hive2015';grant all on hive.* to 'hive'@'hadoop04' identified by 'hive2015';2.3安装以及配置hive下载hive-0.12.0-bin.tar.gz,参考下载地址/downloads.html。

下载之后,把安装包放在/home/hadoop/source/目录下。

执行以下命令:tar –zxvf hive-0.12.0-bin.tar.gz执行完成上述命令会么生一个hive-0.12.0-bin的目录创建hive包的联接ln –s /home/hadoop/source/hive-0.12.0-bin/ ./hive在/etc/profile中新追加以下内容export HIVE_HOME=/home/hadoop/source/hiveexport PATH=$HIVE_HOME/bin:$PATH安装MySQL-Connector,下载网址:/downloads/connector/。

选择“Connector/J”,接着选择“Platform Independent”,本文下载的是“mysql-connector-java-5.1.30.tar.gz”。

压缩包“mysql-connector-java-5.1.30.tar.gz”中有个mysql-connector-java-5.1.30-bin.jar,解压后将mysql-connector-java-5.1.30-bin.jar上传到Hive的lib目录下(/home/hadoop/source/hive-0.12.0-bin/lib/),这个是MySQL的JDBC驱动程序。

修改hive的配置文件(各配置文件位置:/home/hadoop/source/hive-0.12.0-bin/conf/)根据原来的几个模板文件,生成hive需要使用的配置文件,执行以下各个命令:cp hive-env.sh.template hive-env.shcp hive-default.xml.template hive-site.xmlcp hive-log4j.properties.template hive-log4j.propertiescp hive-exec-log4j.properties.template hive-exec-log4j.properties修改hive-site.xml:1) 修复BUG该文件有个语法BUG,需要修改,进入到hive-site.xml的第2000行,该行内容为:<value>auth</auth>,明显的语法错误,需要将“auth”改成“value”。

2) 修改javax.jdo.option.ConnectionURL将值设置为:jdbc:mysql://hadoop02:3306/hive?characterEncoding=UTF-8。

3) 修改javax.jdo.option.ConnectionDriverName将值设置为:com.mysql.jdbc.Driver。

4) 修改javax.jdo.option.ConnectionUserName将值设置为访问hive数据库的用户名hive:<value>hive</value>。

5) 修改javax.jdo.option.ConnectionPassword将值设置为访问hive数据库的密码:<value>hive2015</value>。

6) 修改hive.metastore.schema.verification该值试情况进行修改。

7) 修改hive.zookeeper.quorum将值设置为:hadoop01,hadoop03,hadoop04ZooKeeper被安装在这三台机器上。

8) 修改hive.metastore.uris将值设置为:thrift://hadoop02:9083,9083为Hive元数据的RPC服务端口。

9) 修改hive.metastore.warehouse.dir将值设置为:/home/hadoop/source/hive/warehouse,注意启动前,需要创建好该目录(/home/hadoop/source/hive/warehouse)。

10) 修改hive.server2.thrift.bind.host设置为hadoop02。

修改hive-log4j.properties:修改日志文件存放目录hive.log.dir=/home/hadoop/source/hive/logs如果没有home/hadoop/source/hive/logs这个目录,需要创建一下。

修改hive-exec-log4j.properties:修改日志文件存放目录hive.log.dir=/home/hadoop/source/hive/logs/exec如果没有/home/hadoop/source/hive/logs/exec这个目录,需要创建一下。

2.4启动运行hive1) 初始化metastore安装配置好后,在启动Hive服务端之前,需要在服务端执行一次“schematool -dbType mysql -initSchema”,以完成对metastore的初始化。

2) 启动metastore执行命令:hive --service metastore &3) 启动Hive服务执行:hiveserver2 &。

4) 进入Hive命令行操作界面(类似于mysql)执行:hive查看有哪些表注:invites和pokes这两个表是在技术检证时创建的,建表脚本如下:CREATE TABLE pokes (foo INT, bar STRING);CREATE TABLE invites (fo INT, bar STRING) PARTITIONED BY (ds STRING);导入数据的语法如下:LOAD DATA LOCAL INPATH '/home/hadoop/source/hive/examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2014');注:hive目前还不支持insert into语法。

查看表里的信息上述各命令都能正常执行说明hive已经安装成功。

相关文档
最新文档