hive规则及常用语法

合集下载

hive的语法

hive的语法Hive是基于SQL语言的数据仓库和分析系统，其语法类似于传统的SQL语言，但是在细节上有所不同，下面列举一些常见的Hive 语法：1. 数据库操作创建数据库：CREATE DATABASE database_name;删除数据库：DROP DATABASE database_name;2. 表操作创建表：CREATE TABLE table_name (col1 data_type, col2data_type, ...);删除表：DROP TABLE table_name;3. 数据操作加载数据：LOAD DATA INPATH 'hdfs_path' INTO TABLE table_name;插入数据：INSERT INTO TABLE table_name VALUES (val1, val2, ...);查询数据：SELECT col1, col2, ... FROM table_name WHERE condition;更新数据：UPDATE table_name SET col1 = val1 WHERE condition;删除数据：DELETE FROM table_name WHERE condition;4. 函数和聚合操作常用函数：- COUNT- SUM- AVG- MIN- MAX- CONCAT- SUBSTR- TRIM- UPPER- LOWER聚合操作：SELECT col1, COUNT(*), SUM(col2), AVG(col3), MIN(col4), MAX(col5) FROM table_name GROUP BY col1;5. Join操作内连接：SELECT * FROM table1 INNER JOIN table2 ON table1.col1 = table2.col2;左连接：SELECT * FROM table1 LEFT OUTER JOIN table2 ONtable1.col1 = table2.col2;右连接：SELECT * FROM table1 RIGHT OUTER JOIN table2 ONtable1.col1 = table2.col2;全连接：SELECT * FROM table1 FULL OUTER JOIN table2 ONtable1.col1 = table2.col2;以上是Hive常用的一些语法，仅供参考。

HIVE常用正则函数（like、rlike、regexp、regexp_replace、r。。。

HIVE常⽤正则函数（like、rlike、regexp、regexp_replace、r。

Oralce中regex_like和hive的regexp对应LIKE语法1: A LIKE B语法2: LIKE(A, B)操作类型: strings返回类型: boolean或null描述: 如果字符串A或者字符串B为NULL，则返回NULL；如果字符串A符合表达式B的正则语法，则为TRUE；否则为FALSE。

B中字符"_"表⽰任意单个字符，⽽字符"%"表⽰任意数量的字符。

hive> select 'football' like '%ba';OKfalsehive> select 'football' like '%ba%';OKtruehive> select 'football' like '__otba%';OKtruehive> select like('football', '__otba%');OKtrueRLIKE语法1: A RLIKE B语法2: RLIKE(A, B)操作类型: strings返回类型: boolean或null描述: 如果字符串A或者字符串B为NULL，则返回NULL；如果字符串A符合JAVA正则表达式B的正则语法，则为TRUE；否则为FALSE。

hive> select 'football' rlike 'ba';OKtruehive> select 'football' rlike '^footba';OKtruehive> select rlike('football', 'ba');OKtrueJava正则:"." 任意单个字符"*" 匹配前⾯的字符0次或多次"+" 匹配前⾯的字符1次或多次"?" 匹配前⾯的字符0次或1次"\d" 等于 [0-9]，使⽤的时候写成'\d'"\D" 等于 [^0-9]，使⽤的时候写成'\D'hive> select 'does' rlike 'do(es)?';OKtruehive> select '\\';OK\hive> select '2314' rlike '\\d+';OKtrueREGEXP语法1: A REGEXP B语法2: REGEXP(A, B)操作类型: strings返回类型: boolean或null描述: 功能与RLIKE相同hive> select 'football' regexp 'ba';OKtruehive> select 'football' regexp '^footba';OKtruehive> select regexp('football', 'ba');OKtrue语法: regexp_replace(string A, string B, string C)操作类型: strings返回值: string说明: 将字符串A中的符合java正则表达式B的部分替换为C。

hive基本语法

hive基本语法Hive基本语法Hive是一个开源的数据仓库系统，它提供了一种类似于SQL的查询语言，用于处理大规模数据集。

在Hive中，基本语法是进行数据操作的基础，掌握基本语法对于使用Hive进行数据处理是非常重要的。

一、创建表在Hive中，我们需要首先创建表来存储数据。

创建表的语法如下：CREATE TABLE table_name(column1 data_type,column2 data_type,...);其中，table_name为表名，column1、column2等为列名，data_type为列的数据类型。

通过这个语法，我们可以创建一个具有指定列的表。

二、加载数据创建表之后，我们需要加载数据到表中。

Hive支持从本地文件系统或HDFS中加载数据。

加载数据的语法如下：LOAD DATA [LOCAL] INPATH 'data_file_path' INTO TABLE table_name;其中，data_file_path为数据文件的路径，table_name为已经创建的表名。

通过这个语法，我们可以将数据加载到指定的表中。

三、查询数据在Hive中，我们可以使用类似于SQL的语法来查询数据。

查询数据的语法如下：SELECT column1, column2, ...FROM table_name[WHERE condition][GROUP BY column1, column2, ...][HAVING condition][ORDER BY column1, column2, ...][LIMIT n];其中，column1、column2等为需要查询的列名，table_name为需要查询的表名。

通过这个语法，我们可以从指定的表中查询出满足条件的数据。

四、更新数据在Hive中，我们可以使用UPDATE语句来更新表中的数据。

更新数据的语法如下：UPDATE table_nameSET column1 = value1, column2 = value2, ...[WHERE condition];其中，table_name为需要更新的表名，column1、column2等为需要更新的列名，value1、value2等为更新后的值。

hive正则表达式解析

hive正则表达式解析Hive是一个用于大数据处理的开源框架，它提供了SQL-like语言来处理各种数据源。

在Hive中，正则表达式是一种强大的工具，可用于解析和处理文本数据。

本文将介绍Hive正则表达式的基本语法、应用场景和解析技巧。

一、基本语法Hive的正则表达式由三个部分组成：正则表达式模式、替换文本和特殊字符集。

模式是用来匹配文本的规则，替换文本是当匹配成功后要替换的内容，特殊字符集是一些需要特殊处理的字符。

基本语法示例：* 匹配一个数字：\d+* 匹配一个单词：\w+* 匹配一个字符：.* 替换文本：替换成*二、应用场景1. 文本过滤：通过正则表达式过滤出符合特定规则的文本。

例如，过滤出包含特定关键词的文本。

2. 模式匹配：将文本按照特定模式进行匹配，提取出符合模式的文本或数据。

3. 替换文本：将匹配到的文本替换成指定的内容。

三、解析技巧1. 预编译正则表达式：使用预编译的正则表达式可以提高性能，因为它会将模式存储在内存中，避免重复编译。

2. 捕获组：使用捕获组可以提取匹配到的文本片段。

例如，匹配一个电话号码，可以将其分为号码和区号两个部分。

3. 忽略大小写：使用忽略大小写的模式可以匹配大小写不同的文本。

4. 多行模式：使用多行模式可以匹配跨越多行的文本。

5. 贪婪匹配：默认情况下，正则表达式使用贪婪匹配，即尽可能多地匹配字符。

可以通过在特殊字符前加上“?”来变为非贪婪匹配，即尽可能少地匹配字符。

四、示例解析假设有一组文本数据，其中包含一些数字和字母组成的字符串，现在需要提取出其中的数字和字母，可以使用正则表达式进行解析。

1. 使用正则表达式提取数字：\d+例如：提取字符串"abc123def456"中的数字"123"和"456"。

可以使用Hive SQL如下：SELECT REGEXP_extract('abc123def456', '\\d+', 1) AS extracted_numbers;输出结果为："[123, 456]"2. 使用正则表达式提取字母：\w+例如：提取字符串"abc123def456"中的字母"abc"和"def"。

Hive（二）hive的基本操作

Hive（⼆）hive的基本操作⼀、DDL操作（定义操作）1、创建表（1）建表语法结构CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)] //字段注释[COMMENT table_comment] //表的注释[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] //分区，前⾯没有出现的字段[CLUSTERED BY (col_name, col_name, ...) //分桶，前⾯出现的字段[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS][ROW FORMAT row_format][STORED AS file_format][LOCATION hdfs_path]分区：不⽤关注数据的具体类型，放⼊每⼀个分区⾥；分桶：调⽤哈希函数取模的⽅式进⾏分桶（2）建表语句相关解释create table：创建⼀个指定名字的表。

如果相同名字的表已经存在，则抛出异常；⽤户可以⽤ IF NOT EXISTS 选项来忽略这个异常。

external :关键字可以让⽤户创建⼀个外部表，在建表的同时指定⼀个指向实际数据的路径（ LOCATION）， Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。

在删除表的时候，内部表的元数据和数据会被⼀起删除，⽽外部表只删除元数据，不删除数据。

(经典⾯试问题)partitioned :在 Hive Select 查询中⼀般会扫描整个表内容，会消耗很多时间做没必要的⼯作。

有时候只需要扫描表中关⼼的⼀部分数据，因此建表时引⼊了 partition 概念。

hive一级分区,二级分区规则 -回复

hive一级分区,二级分区规则-回复Hive一级分区和二级分区规则Hive是一个基于Hadoop的数据仓库和分析工具，它可以让用户方便地使用SQL语言对大规模数据进行查询和分析。

在Hive中，数据存储是通过表的方式进行的，而分区则被用来对表中的数据进行划分和组织。

一级分区和二级分区是Hive中对分区的进一步划分。

一级分区是Hive中最基本的分区方式，可以将表的数据按照某个列的值进行划分。

常见的例子是按照日期进行分区，比如将一张销售表按照日期字段进行一级分区，每一天的数据存储在一个分区中。

通过一级分区，可以方便地对特定日期的数据进行查询和分析，提高查询效率和降低存储成本。

一级分区的语法规则如下：CREATE TABLE table_name (column1 data_type,column2 data_type,...)PARTITIONED BY (partition_column data_type);在上面的语法中，PARTITIONED BY子句指定了按照哪个列进行分区，该列的数据类型也需要在表的列定义中进行指定。

一级分区的数据存储形式是以各个分区为目录，每个目录中存储了该分区对应的数据文件。

二级分区是对一级分区的进一步划分，可以将数据按照两个或更多列的值进行划分。

二级分区的语法规则如下：CREATE TABLE table_name (column1 data_type,column2 data_type,...)PARTITIONED BY (partition_column1 data_type, partition_column2 data_type);在上面的语法中，PARTITIONED BY子句指定了按照哪些列进行分区，这些列的数据类型也需要在表的列定义中进行指定。

二级分区的数据存储形式是以各个分区组合为目录，每个目录中存储了该分区组合对应的数据文件。

通过二级分区，可以进一步提高数据查询和分析的效率，以及更灵活地组织数据。

Hive函数及语法说明

无线增值产品部Hive函数及语法说明版本：Hive 0.7.0.001eagooqi2011-7-19版本日期修订人描述V1.0 2010-07-20 eagooqi 初稿2012-1-4 Eagooqi ||、cube目录⏹函数说明 (2)⏹内置函数 (2)⏹增加oracle函数 (14)⏹增加业务函数 (17)⏹扩展函数开发规范 (19)⏹语法说明 (21)⏹内置语法 (21)⏹增加语法 (28)⏹扩展语法开发规范（语法转换） (29)⏹ORACLE sql 对应的hSQL语法支持 (29)⏹函数说明参考链接：https:///confluence/display/Hive/LanguageManualCLI下,使用以下命令显示最新系统函数说明SHOW FUNCTIONS;DESCRIBE FUNCTION <function_name>;DESCRIBE FUNCTION EXTENDED <function_name>;⏹内置函数数值函数Mathematical Functions集合函数Collection Functions类型转换函数Type Conversion Functions日期函数Date Functions条件判断函数Conditional Functions字符串函数String Functions其他函数Misc. FunctionsxpathThe following functions are described in [Hive-LanguageManual-XPathUDF]:∙xpath, xpath_short, xpath_int, xpath_long, xpath_float, xpath_double, xpath_number, xpath_stringget_json_objectA limited version of JSONPath is supported:∙$ : Root object∙. : Child operator∙[] : Subscript operator for array∙* : Wildcard for []Syntax not supported that's worth noticing:∙: Zero length string as key∙.. : Recursive descent∙@ : Current object/element∙() : Script expression∙?() : Filter (script) expression.∙[,] : Union operator∙[start:end.step] : array slice operatorExample: src_json table is a single column (json), single row table:json{"store":{"fruit":[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}], "bicycle":{"price":19.95,"color":"red"}},"email":"amy@only_for_json_udf_","owner":"amy"}The fields of the json object can be extracted using these queries:hive> SELECT get_json_object(src_json.json, '$.owner') FROM src_json; amyhive> SELECT get_json_object(src_json.json, '$.store.fruit[0]') FROM src_json;{"weight":8,"type":"apple"}hive> SELECT get_json_object(src_json.json, '$.non_exist_key') FROM src_json;NULL内置聚合函数Built-in Aggregate Functions (UDAF)增加oracle函数增加业务函数扩展函数开发规范提供以下两种实现方式：a继承org.apache.hadoop.hive.ql.exec.UDF类代码包为:package org.apache.hadoop.hive.ql.udf实现evaluate方法，根据输入参数和返回参数类型，系统自动转换到匹配的方法实现上。

hive函数大全

h i v e函数大全-CAL-FENGHAI.-(YICAI)-Company One1目录一、关系运算： ......................................................................................错误!未定义书签。

1. 等值比较: = .................................................................................错误!未定义书签。

2. 不等值比较: <>............................................................................错误!未定义书签。

3. 小于比较: < .................................................................................错误!未定义书签。

4. 小于等于比较: <=........................................................................错误!未定义书签。

5. 大于比较: > .................................................................................错误!未定义书签。

6. 大于等于比较: >=........................................................................错误!未定义书签。

7. 空值判断: IS NULL .......................................................................错误!未定义书签。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hive规则及常用语法一.hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

二.Hive规则1.建表规则表名使用小写英文以字符串模块名称，项目以BI开头(数据集市以DM)以’_’分割主业务功能块名,然后详细业务名,最后以数据表类别结尾,数据表存放在相应的表空间例如:数据仓库层_业务大类_业务小类-***示例 dw_mobile_start_weekdw_mobile_start_mondw_mobile_start_day1）在建立长期使用的表时，需要给每个字段Column填写Comment栏，加上中文注释方便查看。

对于临时表在表名后加上temp;2）对运算过程中临时使用的表，用完后即使删除，以便及时的回收空间。

临时表如果只用来处理一天数据并且每天都要使用不要按时间建分区。

避免造成临时表数据越来越大。

3）字段名应使用英文创建，字段类型尽量使用string.避免多表关联时关联字段类型不一致。

4）多表中存在关联关系的字段，名称，字段类型保持一致。

方便直观看出关联关系及连接查询。

5）建表时能够划分分区的表尽量划分分区。

6）建表时为表指定表所在数据库中。

2.查询规则1.多表执行join操作时，用户需保证连续查询中的表的大小从左到右是依次增加的。

也可以使用/*+STREAMTABLES(表别名)*/来标记大表。

2. 对于join，在判断小表不大于1G的情况下，使用map join。

如/*+MAPJOIN(表别名) */来标示。

Map表一般选用key分散均匀的小表。

3、对于group by或distinct，设定 hive.groupby.skewindata=truehive.map.aggr = true。

4. 采用sum() group by的方式来替换count(distinct)完成计算。

5.多表关联时如果关联字段存在字段类型不同。

要使用cast把两边字段类型转换成一致，如把数字类型转换成字符串类型。

具体查询的示例可以看第四节hive数据倾斜的优化。

三.Hive基本语法1创建表：hive> CREATE TABLE pokes (foo INT, bar STRING);Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表，结构与其他一样hive> create table new_table like records;2创建分区表：hive> create table logs(ts bigint,line string) partitioned by (dt String,country String);3加载分区表数据：hive> load data local inpath '/home/Hadoop/input/hive/partitions/file1' into table logs partition (dt='2001-01-01',country='GB');4展示表中有多少分区：hive> show partitions logs;5.展示所有表：hive> SHOW TABLES;lists all the tableshive> SHOW TABLES '.*s';lists all the table that end with 's'. The pattern matching follows Java regularexpressions. Check out this link for documentation6.显示表的结构信息hive> DESCRIBE invites;shows the list of columns7.更新表的名称：hive> ALTER TABLE source RENAME TO target;8.添加新一列hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');9.删除表：hive> DROP TABLE records;10.删除表中数据，但要保持表的结构定义hive> dfs -rmr /user/hive/warehouse/records;11.从本地文件加载数据：hive> LOAD DATA LOCAL INPATH '/home/hadoop/input/ncdc/micro-tab/sample.txt' OVERWRITE INTO TABLE records;12.显示所有函数：hive> show functions;13.查看函数用法：hive> describe function substr;14.查看数组、map、结构hive> select col1[0],col2['b'],col3.c from complex;15.内连接：hive> SELECT sales.*, things.* FROM sales JOIN things ON (sales.id = things.id);16.查看hive为某个查询使用多少个MapReduce作业hive> Explain SELECT sales.*, things.* FROM sales JOIN things ON (sales.id = things.id);17.外连接：hive> SELECT sales.*, things.* FROM sales LEFT OUTER JOIN things ON (sales.id = things.id); hive> SELECT sales.*, things.* FROM sales RIGHT OUTER JOIN things ON (sales.id = things.id); hive> SELECT sales.*, things.* FROM sales FULL OUTER JOIN things ON (sales.id = things.id);18.in查询：Hive不支持，但可以使用LEFT SEMI JOINhive> SELECT * FROM things LEFT SEMI JOIN sales ON (sales.id = things.id);19.Map连接：Hive可以把较小的表放入每个Mapper的内存来执行连接操作hive> SELECT /*+ MAPJOIN(things) */ sales.*, things.* FROM sales JOIN things ON (sales.id = things.id);20创建视图：hive> CREATE VIEW valid_records AS SELECT * FROM records2 WHERE temperature !=9999;21.查看视图详细信息：hive> DESCRIBE EXTENDED valid_records;22.结果集输出1.将select的结果放到本地文件系统中INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;2.将select的结果放到hdfs文件系统中INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';23.hive不使用压缩设置set press.map.output=false;set press.output=false;24.当hive执行join内存溢出时set mapred.child.java.opts=-Xmx3072m25.insert into于insert overwrite的区别insert overwrite 会覆盖表里面的原有数据。

insert into 只是简单的copy插入，不做重复性校验；四.hive 查询1.select语法SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]][LIMIT number]注:select语句可以是union查询的一部分或者是另一个查询的子查询。

table_reference指示查询的输入。

它可以是普通的表，视图，join构造或者是子查询。

简单查询。

例如，下面的查询返回表t1所有的列和行。

SELECT * FROM t1where条件是一个boolean表达式。

例如，下面的查询，返回US地区，amount大于10的销售记录。

Hive 在where子句中不支持IN,EXISTS或子查询SELECT * FROM sales WHERE amount > 10 AND region = "US"2.ALL和DISTINCT子句ALL和DISTINCT选项，指定重复的行是否返回。

如果没有指定，默认是ALL(所有行会返回)。

DISTINCT 指定从结果集移除重复的行。

hive> SELECT col1, col2 FROM t11 31 31 42 5hive> SELECT DISTINCT col1, col2 FROM t11 31 42 5hive> SELECT DISTINCT col1 FROM t1123.基于分区的查询通常，一个SELECT查询扫描全部表(除了sampling)。