Hive安装配置详细

合集下载

hive参数配置详细

hive参数配置详细hive.exec.mode.local.auto决定 Hive 是否应该⾃动地根据输⼊⽂件⼤⼩，在本地运⾏（在GateWay运⾏）truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true，当输⼊⽂件⼤⼩⼩于此阈值时可以⾃动在本地模式运⾏，默认是 128兆。

134217728Lhive.exec.mode.local.auto.tasks.max如果 hive.exec.mode.local.auto 为 true，当 Hive Tasks（Hadoop Jobs）⼩于此阈值时，可以⾃动在本地模式运⾏。

4hive.auto.convert.join是否根据输⼊⼩表的⼤⼩，⾃动将 Reduce 端的 Common Join 转化为 Map Join，从⽽加快⼤表关联⼩表的 Join 速度。

falsehive.mapred.local.memMapper/Reducer 在本地模式的最⼤内存量，以字节为单位，0为不限制。

mapred.reduce.tasks所提交 Job 的 reduer 的个数，使⽤ Hadoop Client 的配置。

默认是-1，表⽰Job执⾏的个数交由Hive来分配-1hive.exec.scratchdirHDFS路径，⽤于存储不同 map/reduce 阶段的执⾏计划和这些阶段的中间输出结果。

/tmp/<>/hivehive.metastore.warehouse.dirHive 默认的数据⽂件存储路径，通常为 HDFS 可写的路径。

"hive.groupby.skewindata决定 group by 操作是否⽀持倾斜的数据。

原理是，在Group by中，对⼀些⽐较⼩的分区进⾏合并falsehive.merge.mapfiles是否开启合并 Map 端⼩⽂件，对于 Hadoop 0.20 以前的版本，起⼀⾸新的 Map/Reduce Job，对于 0.20 以后的版本，则是起使⽤ CombineInputFormat 的MapOnly Job。

HIVE安装使用说明

HIVE安装使用说明一、Hive简介1.1.H ive是什么Hadoop作为分布式运算的基础架构设施，统计分析需要采用MapReduce编写程序后,放到Hadoop集群中进行统计分析计算，使用起来较为不便，Hive产品采用类似SQL的语句快速实现简单的MapReduce统计，很大程度降低了Hadoop的学习使用成本。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供基础的SQL查询功能，可以将SQL 语句转换为MapReduce任务运行，而不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

1.2.部署架构Hive中的Driver为核心驱动部分，包括SQL语句的解释、编译为MapReduce任务,并进行优化、执行。

Hive用户访问包括4种运行和访问方式，一是CLI客户端；二是HiveServer2和Beeline方式；三是HCatalog/WebHCat方式；四是HWI 方式。

其中CLI、Beeline均为控制台命令行操作模式,区别在于CLI只能操作本地Hive服务，而Beeline可以通过JDBC连接远程服务。

HiveServer2为采用Thrift提供的远程调用接口，并提供标准的JDBC 连接访问方式。

HCatalog是Hadoop的元数据和数据表的管理系统，WebHCat则提供一条Restful的HCatalog远程访问接口，HCatalog的使用目前资料很少,尚未充分了解。

HWI是Hive Web Interface的简称，可以理解为CLI的WEB访问方式,因当前安装介质中未找到HWI对应的WAR文件，未能进行使用学习。

Hive在运行过程中,还需要提供MetaStore提供对元数据（包括表结构、表与数据文件的关系等）的保存，Hive提供三种形式的MetaStore:一是内嵌Derby方式，该方式一般用演示环境的搭建;二是采用第三方数据库进行保存，例如常用的MySQL等；三是远程接口方式，及由Hive自身提供远程服务，供其他Hive应用使用。

Hive编程环境的设置与配置

Hive编程环境的设置与配置Hive是一个基于Hadoop的数据仓库工具，它提供了类SQL语言的查询和分析功能，可用于处理大规模的结构化和半结构化数据。

为了开始使用Hive，我们需要先进行编程环境的设置与配置。

本文将引导您完成Hive编程环境的安装、配置和基本使用。

1. 安装Hive首先，我们需要在计算机上安装Hive。

Hive可以使用Apache官方提供的二进制文件进行安装，同时也可以通过包管理工具进行安装，例如使用apt-get命令在Ubuntu上安装。

确保安装的Hive版本与Hadoop集群中的版本兼容。

2. 配置Hadoop由于Hive是基于Hadoop的，我们需要先配置Hadoop的环境变量。

编辑hadoop-env.sh文件并将Hadoop的安装路径添加到HADOOP_HOME变量中。

确保Hadoop的配置文件hadoop-site.xml也已正确配置。

3. 配置Hive接下来，我们需要对Hive进行一些配置。

在Hive的安装目录中，有一个名为hive-default.xml的样例配置文件。

我们可以将其复制为hive-site.xml，然后在该文件中进行相关配置。

首先，我们需要配置Hive的元数据库（metastore）。

元数据库用于存储Hive 的元数据，包括表结构、分区和分隔符等信息。

您可以选择使用内置的Derby数据库或外部的MySQL数据库作为元数据库。

如需使用MySQL，您需要先安装MySQL并创建一个新的数据库。

在hive-site.xml文件中，找到名为javax.jdo.option.ConnectionURL的属性，并将其值设置为MySQL数据库的连接字符串。

同时，修改javax.jdo.option.ConnectionDriverName属性为com.mysql.jdbc.Driver，javax.jdo.option.ConnectionUserName属性为登录MySQL所使用的用户名，javax.jdo.option.ConnectionPassword属性为该用户名对应的密码。

hive的用法

Hive的用法一、Hive简介Hive是基于Hadoop的数据仓库工具，用于处理大规模数据集。

它提供了一种类似于SQL的查询语言，称为HiveQL，使得分析师和数据科学家可以使用熟悉的SQL 语法来查询和分析数据。

Hive将这些查询转换为MapReduce任务，并在Hadoop集群上执行，从而实现高效的数据处理。

二、Hive安装和配置2.1 安装Hive首先，需要下载Hive的安装包，并解压到指定的目录。

然后，设置Hive的环境变量，包括添加Hive的bin目录到PATH变量中，以及设置HIVE_HOME变量指向Hive的安装目录。

2.2 配置HiveHive的配置文件位于Hive的安装目录下的conf文件夹中。

其中，最重要的配置文件是hive-site.xml，它包含了Hive的各种配置参数。

在配置文件中，需要指定Hive的元数据存储位置、Hadoop集群的配置信息、Hive的执行引擎等。

三、Hive数据模型Hive的数据模型类似于传统的关系型数据库。

它将数据组织成表，并支持表的分区和分桶，以提高查询性能。

在Hive中，表可以分为内部表和外部表。

内部表的数据存储在Hive的默认存储位置中，而外部表的数据可以存储在Hive之外的任意位置。

四、HiveQL查询语言HiveQL是Hive的查询语言，它类似于SQL语言，但也有一些不同之处。

下面是一些常用的HiveQL查询语句和语法：4.1 创建表在Hive中，可以使用CREATE TABLE语句来创建表。

可以指定表的名称、列名、列的数据类型等信息。

例如：CREATE TABLE employees (id INT,name STRING,age INT);4.2 加载数据使用LOAD DATA语句可以将数据加载到Hive表中。

可以从本地文件系统或Hadoop 文件系统中加载数据。

例如：LOAD DATA LOCAL INPATH '/path/to/data.txt' INTO TABLE employees;4.3 查询数据使用SELECT语句可以查询Hive表中的数据。

hive安装配置实验实训报告

hive安装配置实验实训报告一、实验目的本实验旨在通过实际操作，掌握Hive的安装与配置过程，了解Hive的基本功能和使用方法，为后续的大数据处理和分析奠定基础。

二、实验环境1.硬件环境：高性能计算机，至少4核CPU、8GB内存、50GB 硬盘。

2.软件环境：Ubuntu 18.04操作系统，Java Development Kit (JDK) 1.8，Apache Hadoop 2.7.3。

三、实验步骤1.安装与配置Hadoop：首先，在实验环境中安装Hadoop，并配置Hadoop集群。

确保NameNode、SecondaryNameNode、DataNode等节点正常运行。

2.安装Hive：使用apt-get命令安装Hive。

在安装过程中，选择与Hadoop版本兼容的Hive版本。

3.配置Hive：编辑Hive的配置文件hive-site.xml，配置Hive连接到Hadoop集群的相关参数。

4.初始化Hive元数据：运行Hive的元数据初始化脚本，创建Hive元数据库。

5.启动Hive服务：使用以下命令启动Hive的元数据库、Metastore和HiveServer2等服务。

1.元数据库：hive --service metastore &2.Metastore：hive --service metastore &3.HiveServer2：hive --service hiveserver2 &6.测试Hive：使用Hive的命令行工具进入Hive交互式查询环境，执行简单的SQL查询语句，测试Hive是否安装成功。

四、实验结果与分析经过上述步骤，我们成功在实验环境中安装和配置了Hive。

通过执行简单的SQL查询语句，验证了Hive的基本功能。

具体而言，我们执行了以下查询语句：1.创建数据库：CREATE DATABASE mydatabase;2.选择数据库：USE mydatabase;3.创建表：CREATE TABLE mytable (id INT, name STRING);4.插入数据：INSERT INTO TABLE mytable VALUES (1, 'Alice'), (2, 'Bob');5.查询数据：SELECT * FROM mytable;6.删除表：DROP TABLE mytable;7.删除数据库：DROP DATABASE mydatabase;通过这些查询语句的执行，我们验证了Hive的基本功能，包括数据库管理、表创建、数据插入、数据查询、表删除和数据库删除等。

Hive安装与配置

HIVE详细配置手册(各版本号根据实际情况自行更改)1) 安装hive1.hadoop@hadoop-master:/opt$sudo wget -c/hive/hive-0.9.0/hive-0.9.0.tar.gz2.hadoop@hadoop-master:/opt$ sudo tar xvzf hive-0.9.0.tar.gz3.hadoop@hadoop-master:/opt$sudo mvhive-0.9.0/home/hadoop/hadoop-1.0.1/contrib/hive2)配置环境变量1.hadoop@hadoop-master:/opt$ cat /etc/profile2.export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd643.export HADOOP_HOME=/home/hadoop/hadoop-1.0.14.export ANT_HOME=$HADOOP_HOME/apache-ant-1.7.15.exportPATH=$PATH:$HADOOP_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/contrib/hive/ bin:$ANT_HOME/bin6.export HADOOP_HOME_WARN_SUPPRESS=13）启动hive1.hadoop@hadoop-master:~/hadoop-1.0.1/contrib/hive/bin$ hive2.hive> show tables;3.OK4.Time taken:7.032 seconds执行成功。

安装mysql和mysql操作1.hadoop@hadoop-master:~$ sudo apt-get install mysql-servermysql( 未成功输入) mysql-client2.hadoop@hadoop-master:~$ sudo /etc/init.d/mysqld restart1.(#service mysql restart)3.hadoop@hadoop-master:~$ mysql -uroot –p1234561.（-u跟用户名，-p跟密码）4.mysql>create database hive;5.mysql>grant all on hive.* to hive@localhost identified by '123456';安装Mysql的JDBC驱动包1.hadoop@hadoop-master:~$ sudo wget -c/archives/mysql-connector-java-5.0/mysql-co nnector-java-5.0.8.tar.gz2.hadoop@hadoop-master:~$ mv mysql-connector-java-5.0.8.tar.gz/usr/local/hadoop/contrib/hive/lib5) 修改hive配置文件（用#sudo gedit 加配置文件名）1.hadoop@hadoop-master:~/hadoop-1.0.1/contrib/hive/conf$ cphive-default.xml.template hive-defalut.xml2.hadoop@hadoop-master:~/hadoop-1.0.1/contrib/hive/conf$ cphive-default.xml.template hive-site.xml#修改hive-site.xml 如下部分#sudo gedit hive-site.xml1.<property>2.<name>javax.jdo.option.ConnectionURL</name>3.<value>jdbc:mysql://localhost:3306/hive?createDataBaseIfNotExist=True</value>4.<description>JDBC connect string for a JDBCmetastore</description>5.</property>6.7.<property>8.<name>javax.jdo.option.ConnectionDriverName</name>9.<value>com.mysql.jdbc.Driver</value>10.<description>Driver class name for a JDBC metastore</description>11.</property>12.13.<property>14.<name>javax.jdo.option.ConnectionUserName</name>15.<value>hive</value>16.<description>username to use against metastoredatabase</description>17.</property>18.19.<property>20.<name>javax.jdo.option.ConnectionPassword</name>21.<value>123456</value>22.<description>password to use against metastoredatabase</description>23.</property>浏览器输入http://localhost:50070进行查看，点击Browser the filesystem进入，点击user会看到hive链接，点击进去就能看到数据表。

Hadoop和Hive的安装配置

Hadoop和Hive的安装配置Hadoop安装指南 / Hive安装指南Hadoop集群需要一个机器作为Master节点，其余的机器都是slave节点。

HIVE只需在Master节点中安装和配置即可。

配置HadoopHadoop的配置比较简单，下面详细讲一下安装与配置步骤。

以配置Hadoop 0.20.2版本为例。

(1) 从hadoop官网上下载hadoop-0.20.2.tar.gz文件，并解压产生hadoop-0.20.2目录，将该目录到/opt/hadoop目录下（如果你解压缩到了其它目录中，注意后面要相应的修改配置项）。

输入命令建立软连接$ ln -s hadoop-0.20.2 hadoop （这样做的好处是如果改用其它版本的hadoop不用重新配置）(2) Hadoop和Hive都需要机器名。

用hostname命令修改本机的机器名，例如修改10.10.10.1的机器名为hadoop139需要键入 # hostname hadoop1 修改/etc/hosts文件，添加Hadoop集群中所有的机器名和Ip地址的对应关系。

Master节点和所有slave节点一定都要添加，否则会出问题。

例如在我的所有hadoop机器的/etc/hosts文件都添加10.10.10.1 hadoop1 10.10.10.2 hadoop2 10.10.10.3 hadoop3 10.10.10.4hadoop4 10.10.10.5 hadoop5 10.10.10.6 hadoop6 10.10.10.7 hadoop7 (3) 由于Master节点的机器需要ssh无密码登录到所有slave节点，因此所有机器都需要如下配置。

在本文中Hadoop1是Master节点。

打开/etc/ssh/sshd_config文件，确保ssh使用的不是ssh2协议，否则将所有的Protocol 2修改成Protocol 1。

hive安装文档

Hive安装文档（元数据存放在mysql）一、环境说明1.hadoop2.72.hive2.13.jdk1.84.spark2.15.mysql5.66.其他说明：linux建了2个用户，一个是hadoop用户，用来安装hadoop等，一个mysql用户，用来安装mysql。

2、安装步骤、1.在mysql已经安装好的情况下，新建hive用户，新建数据库，授权使用mysql的root用户登录 ,执行下面语句，执行完了之后可以用hive用户登录测试create database if not exists hive；grant all privileges on hive.* to ‘hive‘@‘%‘ identified by ‘hive‘;grant all privileges on hive.* to ‘hive‘@‘localhost‘ identified by ‘hive‘;grant all privileges on hive.* to ‘hive‘@‘hadoop01‘ identified by ‘hive‘;flush privileges;//其中hadoop01是主机名2. 将hive的包解压建立hive安装路径#mkdir /opt/hive指定目录给hadoop用户Chown -R hadoop:hadoop /opt/hiveTar -zxvf apache-hive-2.1.1-bin.tar.gz然后 cp -r apache-hive-2.1.1-bin /opt/hive修改环境变量（默认jdk，hadoop都装好了），$vi ~/.profile(不同的linux版本可能有差异，也可能是.bash_profile)在后面加Export HIVE_HOME=/opt/hiveExport PATH=$PATH:$HIVE_HOME/bin然后source ~/.profile 生效配置可以试试用echo $PATH验证环境变量3.修改hive参数在本地主目录建文件夹Mkdir -p ./hive/tmp在hdfs建目录Hadoop fs -mkdir /tmpHadoop fs -mkdir /user/hive/warehouse$cd /opt/hive/conf*把mysql的jar包传到/opt/hive/lib中$cp hive-env.sh.template hive-env.shcp hive-default.xml.template hive-site.xmlcp hive-log4j.properties.template hive-log4j.properties cp hive-exec-log4j.properties.template hive-exec-log4j.pr operties修改hive-env.sh,在最后增加export JAVA_HOME=/opt/jdkexport HADOOP_HOME=/opt/hadoopexport HIVE_HOME=/opt/hiveexport HIVE_CONF_DIR=/opt/hive/conf修改hive-site.xml，先修改下面几处<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost/hive</value><description>JDBC connect string for a JDBC metastore</ description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value><description>Driver class name for a JDBC metastore</de scription></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>Username to use against metastore database< /description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value><description>password to use against metastore database< /description></property>修改完了之后启动hive可能会报错，在hive/bin执行，把hive的元数据改为mysql./schematool -dbType mysql -initSchema接下来启动hive，可能报错 ..main ....java.io.....错误这是由于在hive-site.xml没有修改几个目录的绝对路径、修改hive.exec.local.scratchdir设置为：/data/hadoop/hive/tmp/scratch或其它，并创建好目录。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hive安装配置详细
定义
Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。

Hive可以将结构化的数据存储在数据仓库中，通过自己的SQL去查询分析需要的内容，这套SQL简称Hive SQL。

它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。

Hive在Hadoop的架构体系中承担了一个SQL解析的过程，它提供了对外的入口来获取用户的指令然后对指令进行分析，解析出一个MapReduce程序组成可执行计划，并按照该计划生成对应的MapReduce 任务提交给Hadoop集群处理，获取最终的结果。

以上定义来源于《Hadoop开发者入门专刊》
Hive安装
我将延用《Hadoop安装》文档（/blog/706699）风格撰写下文。

Hive需要Hadoop的支持，也就是说在安装Hive之前需要正确安装Hadoop，这里不再阐述Hadoop 的安装过程。

一般我们会将Hive安装到NameNode所在主机上，这里假设使用root用户进行安装，Hive 的安装过程很简单：
以上就是在Linux（cent os 5.X）上安装Hive的过程，下面就到了配置的环节。

Hive配置
Hive的必要配置相当简单，只需要声明$HADOOP_HOME（请查阅《Hadoop安装》文档）这个环境变量就行了。

Hive的核心配置文件$HIVE_HOME/conf/hive-default.xml中有一些对Hive关键配置，一般我们不需要对其进行改动，如果你需要更改这个关键配置，请不要直接更改hive-default.xml这个文件，在同一目录下新建hive-site.xml文件，然后将需要更改的属性配置在这里面即可，配置格式与hive-default.xml一样。

另外，在Hive官方文档中重点提到了Hive的日志配置$HIVE_HOME/conf/hive-log4j.properties，虽然不是必要更改的配置文件，但合理的设置会对我们有一定的帮助，具体配置方法可见官方文档。

根据官方文档的描述，在使用Hive之前需要在HDFS中创建几个目录，并且将其开放g+w模式。

如下代码所示：
通过我的试验，以上创建目录的步骤是可以省略的，Hive会自动创建需要的目录。

Hive运行示例：
Hive提供了一个CLI（Command Line Interface）客户端，我们可以通过CLI进行直观的DDL、DML 及SQL操作。

以下是CLI使用示例：
在hive控制台，执行命令成功后会打印如下所求的提示：
如果有以上提示就证明你的Hive已经安装成功并能运行了。