Hive优化

合集下载

深入理解Hive的查询执行计划与优化策略

深入理解Hive的查询执行计划与优化策略Hive是一种在Hadoop生态系统中运行的数据仓库工具，它提供了Hive查询语言（HQL），允许用户以类似于SQL的方式进行数据查询和分析。

然而，由于Hive在Hadoop上运行，数据量通常庞大且分布广泛，因此查询性能和效率成为关键问题。

为了优化Hive查询，我们需要深入了解Hive的查询执行计划和优化策略。

一、查询执行计划在Hive中，查询执行计划是指查询语句在执行之前的逻辑计划和执行计划。

逻辑计划描述了执行查询所需的转换和操作，而执行计划则是根据物理资源和数据分布来优化查询的实际执行计划。

1. 逻辑计划Hive将查询语句转换为逻辑计划，该计划是一个以树状结构表示的操作符序列。

这些操作符包括从表中选择数据、过滤数据、合并结果等。

逻辑计划不关心具体的物理资源和数据分布，只考虑查询语句的语义和逻辑关系。

2. 执行计划执行计划是根据逻辑计划和物理资源进行优化的实际计划。

在生成执行计划时，Hive会考虑查询的数据分布、数据倾斜、数据压缩等因素，以及执行查询所需的资源（CPU、内存等）。

执行计划可以通过Explain命令来查看，它显示了Hive的查询优化过程。

二、优化策略为了提高查询性能和效率，Hive提供了多种优化策略。

下面介绍几种常用的优化策略：1. 分区剪枝分区剪枝是指在执行查询时，根据查询条件的分区键过滤无关分区，从而减少数据扫描的量和执行时间。

Hive会在执行计划中添加分区剪枝操作，根据查询条件和分区键的关系自动剪除不需要扫描的分区。

2. 列剪枝列剪枝是指根据查询语句中所需的列，优化执行计划，只从存储中读取必要的列数据，而不是读取整个表的数据。

这样可以减少磁盘I/O和数据传输的量，从而提高查询性能。

3. 合并MapReduce任务Hive通常使用MapReduce作为执行引擎，将查询转换为多个MapReduce任务进行并行计算。

然而，如果多个任务可以合并为一个任务，可以显著减少任务之间的数据传输和开销，提高执行效率。

Hive优化

Hive优化1 概述1.1 Hive的特征1.可以通过SQL轻松访问数据的工具，从而实现数据仓库的任务，报告和数据分析等。

2.可以使已经存储的数据结构化。

3.可以直接访问存储在HDFS或者其他数据存储系统中的文件。

4.Hive除了支持MapReduce计算引擎之外还支持Spark和Tez这两种分布式计算引擎。

5.提供了类似sql查询语句的HiveSql对数据进行分析。

6.存储格式多样化。

1.2 Hive优势Hive的强大之处不是在与将数据转换成特定格式，而是利用Hadoop本身的InputFormat API来从不同的数据源中读取数据，然后使用OutputFormat API将数据写成不同的格式。

所以对于不同的数据源，或者写出不同的格式就需要不同的对应的InputFormat和OutputFormat类的实现。

Hive拥有统一的元数据管理，所以和spark，impala等SQL引擎通用。

（通用指的是拥有了统一的Metastore之后，在Hive中创建一张表，在spark/impala中能通用，反之在spark中创建一张表，在Hive中也是能用的）只需要共用元数据，就可以切换SQL引擎了。

Hive使用SQL语法，提供快速开发能力，还可以通过用户定义的函数，用户定义的聚合和用户定义的表函数进行扩展，避免了去写MapReduce，减少开发人员学习成本。

Hive中不仅可以使用逗号和制表符分隔文本文件。

还可以使用sequence File、RC、ORC、Parquet。

Hive指在最大限度的提高可伸缩性，性能，可扩展性，容错性以及与其输出格式的松散耦合。

数据离线处理：日志分析，海量数据结构化分析。

2 Hive函数Hive的SQL可以通过用户定义的函数，用户定义的聚合和用户定义的表函数进行扩展当Hive提供的内置函数无法满足你的业务需求时，此时就可以考虑使用用户自定义函数UDF(用户定义函数)，UDAF(用户定义聚合函数)，UDTF(用户定义表函数)的区别：▪udf 一进一出▪udaf 聚集函数，多进一出▪udtf 一进多出3 Hive优化3.1 慎用api大数据场景下不害怕数据量大，但是害怕数据倾斜。

深入理解Hive查询优化与执行计划

深入理解Hive查询优化与执行计划Hive是一个构建在Hadoop之上的数据仓库基础架构，具有高扩展性和容错性。

它提供了类似于SQL的查询语言——HiveQL，使得开发者可以使用SQL语句而不需要了解复杂的MapReduce编程。

尽管Hive在读取大型数据集时表现出色，但在进行复杂查询时，性能可能会受到影响。

为了优化查询性能并提高执行计划的效率，我们需要深入理解Hive查询优化与执行计划。

Hive查询优化的目标是提高查询性能和降低资源消耗。

为了实现这一目标，Hive查询优化器会尝试优化查询计划，选择更有效的操作顺序和算法，以减少数据读取和转换的开销。

下面将介绍一些常见的Hive查询优化技术。

首先是分区和分桶。

Hive能够根据表的列值将数据分成不同的分区，这样可以将查询范围限制在特定的分区上，减少查询的数据量。

分桶则是将数据分成更小的单位，使得查询操作只需要在一个桶（bucket）中进行，从而加快查询速度。

其次是索引和统计信息。

在Hive中，我们可以通过创建索引来加快查询速度。

索引可以在某些列上创建，从而快速定位满足特定条件的行。

另外，Hive还可以收集统计信息，例如表的大小、列的不同值的数量等，通过这些统计信息，优化器能够根据查询条件评估并选择更优的执行计划。

还有一项重要的优化技术是数据倾斜处理。

在某些情况下，某些列的值分布极不均匀，导致某些任务运行时间较长。

为了解决这个问题，可以通过数据重塑、倾斜处理或使用动态分区等方法来解决数据倾斜问题。

一旦我们了解了Hive查询优化技术，我们就需要关注执行计划的生成和调优。

执行计划是Hive为我们的查询所准备的一系列任务和操作的有序列表。

对于复杂的查询，执行计划的优化非常关键。

Hive将查询分成多个阶段，并将每个阶段分解成更小的任务。

任务的划分依赖于数据的分区和桶，以及并行处理的配置。

根据查询的复杂性和数据规模，Hive 可能生成很多任务，这些任务会在集群中并行执行。

数据分析利器之hive优化十大原则

数据分析利器之hive优化⼗⼤原则hive之于数据民⼯，就如同锄头之于农民伯伯。

hive⽤的好，才能从地⾥（数据库）⾥挖出更多的数据来。

⽤过hive的朋友，我想或多或少都有类似的经历：⼀天下来，没跑⼏次hive，就到下班时间了。

hive在极⼤数据或者数据不平衡等情况下，表现往往⼀般，因此也出现了presto、spark-sql等替代品。

今天不谈其它，就来说说关于hive，个⼈的⼀点⼼得。

⼀. 表连接优化1. 将⼤表放后头Hive假定查询中最后的⼀个表是⼤表。

它会将其它表缓存起来，然后扫描最后那个表。

因此通常需要将⼩表放前⾯，或者标记哪张表是⼤表：/*streamtable(table_name) */2. 使⽤相同的连接键当对3个或者更多个表进⾏join连接时，如果每个on⼦句都使⽤相同的连接键的话，那么只会产⽣⼀个MapReduce job。

3. 尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使⽤到的字段。

4. 尽量原⼦化操作尽量避免⼀个SQL包含复杂逻辑，可以使⽤中间表来完成复杂的逻辑⼆. ⽤insert into替换union all如果union all的部分个数⼤于2，或者每个union部分数据量⼤，应该拆成多个insert into 语句，实际测试过程中，执⾏时间能提升50%如：insert overwite table tablename partition (dt= ....) select ..... from ( select ... from Aunion all select ... from B union all select ... from C ) R where ...;可以改写为：insert into table tablename partition (dt= ....) select .... from A WHERE ...; insert into table tablename partition (dt= ....) select ....from B WHERE ...; insert into table tablename partition (dt= ....) select .... from C WHERE ...;三. order by & sort byorder by : 对查询结果进⾏全局排序，消耗时间长。

Hive的10种优化总结

Hive的10种优化总结Hive作为⼤数据领域常⽤的数据仓库组件，在平时设计和查询时要特别注意效率。

影响Hive效率的⼏乎从不是数据量过⼤，⽽是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。

对Hive的调优既包含对HiveSQL语句本⾝的优化，也包含Hive配置项和MR⽅⾯的调整。

列裁剪和分区裁剪最基本的操作。

所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

以我们的⽇历记录表为例：select uid,event_type,record_datafrom calendar_record_logwhere pt_date >= 20190201 and pt_date <= 20190224and status = 0;当列很多或者数据量很⼤时，如果select *或者不指定分区，全列扫描和全表扫描效率都很低。

Hive中与列裁剪优化相关的配置项是hive.optimize.cp，与分区裁剪优化相关的则是hive.optimize.pruner，默认都是true。

在HiveSQL解析阶段对应的则是ColumnPruner逻辑优化器。

谓词下推在关系型数据库如MySQL中，也有谓词下推（Predicate Pushdown，PPD）的概念。

它就是将SQL语句中的where谓词逻辑都尽可能提前执⾏，减少下游处理的数据量。

例如以下HiveSQL语句：select a.uid,a.event_type,b.topic_id,b.titlefrom calendar_record_log aleft outer join (select uid,topic_id,title from forum_topicwhere pt_date = 20190224 and length(content) >= 100) b on a.uid = b.uidwhere a.pt_date = 20190224 and status = 0;对forum_topic做过滤的where语句写在⼦查询内部，⽽不是外部。

hive优化总结

hive优化总结在大数据处理领域中，Hadoop已经成为主流的框架之一。

Hadoop 的一个重要组件是Hive，这是一个基于Hadoop的数据仓库基础工具。

Hive的目标是提供一个类SQL查询的接口，以便于对存储于Hadoop集群中的数据进行分析和查询。

然而，在实际使用中，Hive的性能和效率往往会受到限制。

本文将介绍一些提高Hive性能和优化的技巧和方法。

首先，要注意数据分区。

在Hive中，数据分区可以将数据以更细粒度的方式进行组织和存储，从而提高查询效率。

通过将数据分区存储在不同的目录中，Hive可以避免扫描整个数据集，并仅从感兴趣的分区中读取数据。

因此，正确地定义和使用数据分区是提高Hive性能的重要步骤之一。

其次，使用合适的表格式也是优化Hive的关键。

Hive支持多种表格式，例如文本、序列文件和列式存储等。

每种表格式都有自己的特点和适用场景。

在选择表格式时，需要考虑数据大小、查询类型以及存储需求等因素。

例如，对于需要频繁进行聚合操作的场景，列式存储格式通常更加高效。

另外，可以使用分桶技术来改善Hive的性能。

分桶是将表按照某个列的值进行分组，使得具有相同分桶值的数据存储在相同的桶中。

通过使用分桶技术，Hive可以更快地进行连接操作和过滤操作，从而提高查询效率。

在选择分桶列时，应选择具有较高的基数和较为均匀分布的列。

此外，使用Hive的索引功能也能够加速查询。

Hive支持对表中的列创建索引，从而可以更快地定位和访问数据。

通过使用索引，Hive可以减少全表扫描的开销，并且在一些特定的查询场景下，索引的使用可以显著提高查询性能。

然而，需要注意的是，索引会增加数据的存储空间和更新的成本，因此在使用索引时需要进行权衡。

最后，合理地配置Hive参数也是优化Hive性能的一项重要工作。

Hive的性能受到许多配置参数的影响，例如内存大小、并行度和任务调度等。

根据具体的场景和需求，可以对这些参数进行调整，以获得更好的性能和效率。

hive优化总结

hive优化总结Hive优化总结Hive是一种建立在Hadoop之上的开源数据仓库解决方案，它可以使用类似SQL的查询语言来处理大规模数据集。

然而，由于数据集的规模越来越庞大，并且查询的复杂度也在增加，Hive的性能可能会受到影响。

因此，对Hive进行优化是提高查询效率和性能的关键。

一、数据分区在Hive中，数据分区是一种将数据按照特定的列进行划分存储的方式。

通过合理地选择分区列，可以提高查询性能。

例如，在时间序列数据中，通过将数据按照时间列进行分区，可以将查询仅限于需要的时间范围，提高查询效率。

二、数据压缩Hive支持多种数据压缩格式，如Gzip、Snappy和LZO等。

使用数据压缩可以显著减少存储空间，并且对于IO密集型操作，如数据扫描，也可以显著提高性能。

在选择数据压缩格式时，需要综合考虑存储空间和查询性能之间的权衡。

三、分桶类似于数据分区，分桶也是一种将数据进行划分的方式。

不同的是，分桶是将数据按照某一列的哈希值进行划分，可以提高数据的均衡性。

通过通过使用分桶，可以提高数据的访问效率，尤其是对于某些需要经常进行随机访问的操作。

四、合理使用索引在Hive中，可以使用B树索引来加速查询。

合理地创建索引可以显著提高查询性能。

然而，索引也会带来额外的存储开销和维护成本，因此需要权衡是否使用索引。

通常情况下，索引适用于数据量较小、查询频繁的情况下。

五、数据倾斜处理在大规模数据集中，数据倾斜是一个不可避免的问题。

数据倾斜会导致查询性能不均衡，某些任务的执行时间远远超出了预期。

针对数据倾斜问题，可以使用一些优化技术，如数据倾斜的处理和随机均匀分布。

六、并行执行并行执行是提高Hive查询性能的一个关键技术。

在Hive中，可以通过设置合适的查询并行度，将一个复杂的查询分解为多个子任务并行执行。

这样可以加快查询速度，提高整体的性能。

七、动态分区动态分区是一种在查询时根据查询条件动态创建分区的技术。

通过使用动态分区，可以避免在每次插入数据时都需要手动创建分区的操作，简化了操作流程，提高了数据的管理效率。

[Hive]-常规优化以及执行计划解析

[Hive]-常规优化以及执⾏计划解析1.HiveSQL优化 1.1 中⼼思想这⾥以Hive On MapReduce 为例,Hive On Spark等思路也是⼀致的. HiveSQL会最终转化为MapReduce进⾏执⾏,那么优化的前提是⾄少对MapReduce有基本的了解其次是必须了解HiveSQL会转化成怎么样的MapReduce作业(执⾏计划),这是优化HiveSQL根本依据.切记,HiveSQL的优化本质是对MapReduce作业的优化. ⽐如MapReduce的⼀些特点: 数据读取和写⼊,都是针对HDFS(磁盘)⽽⾔,都是IO操作不喜欢某⼀个任务过⼤(数据倾斜).⼀个经典的结论:数据量不是问题,数据倾斜才是不喜欢⼤量过⼩的任务.任务资源申请等本⾝初始化和管理也是需要消耗时间和资源得.⼤量过⼩任务,导致时间和资源都花在任务维护上了所以在HiveSQL上,也是针对这些特点来进⾏优化 1.2 ⼀些常见的优化思路 1.2.1 IO 只查询需要的列.MapReduce会根据查询谓词裁剪列,简单说就是不查询的列不读,这样可以降低IO 尽可能的使⽤表分区.表分区条件后,MapReduce会直接跳过不需要的分区的全部⽂件,极⼤的降低IO 1.2.2 数据倾斜 1.2.2.1 慎⽤count(distinct) 慎⽤count(distinct)原因是容易造成数据倾斜.因为其执⾏的MapReduce是以GroupBy分组,再对distinct列排序,然后输出交给Reduce. 问题就在这⾥,相⽐其它GroupBy聚合统计,count(distinct)少⼀个关键步骤(Map的预计算,在Map端提前做⼀次聚合再将聚合结果交给Reduce) 当Map直接将全部数据交给Reduce后,如果数据的分组本⾝不平衡(⽐如及格,80%以上及格数据),会造成某⼀些Reduce处理太过多的数据,这就是数据倾斜 count(distinct)可以考虑换GroupBy⼦查询 1.2.2.2 注意null值带来的数据倾斜所有null会认为是同⼀个值,会⾛同⼀个Map,如果null占的⽐重⼀⼤,⼜是⼀个数据倾斜.这是业务上考虑是否能做过滤这⾥同样适⽤其它的业务null值(⽐如常见的0,1,-1,-99等业务默认值) 1.2.3 表关联⼤表放后 MapReduce从后往前构建数据,先过滤⼤表把数据量降下来,可以在Reduce端的Hash-Join减少数据量,提⽰效率同列关联如可能,⽤同⼀列关联同列关联,⽆论关联多少表都是⼀个Map搞定,如果不是同列,就会新开⼀个MapReduce 1.2.4 配置优化这⾥的配置,是指MapReduce或Spark配置2.HiveSQL的MR转换 2.1 不跑MapReduce的情况 HiveSQL不是每种情况都会跑MapReduce的.基本查询,或者是不涉及计算(⽐如查询分区表)的查询,是不会启动MapReduce任务的 explain select * from dept_et limit 1; STAGE DEPENDENCIES:Stage-0 is a root stageSTAGE PLANS:Stage: Stage-0Fetch Operatorlimit: 1Processor Tree:TableScanalias: dept_etStatistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONESelect Operatorexpressions: id (type: int), name (type: string), city (type: string)outputColumnNames: _col0, _col1, _col2Statistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONELimitNumber of rows: 1Statistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEListSink 2.2 join explain select * from dept_et et join dept_mg mg on et.id= mg.id STAGE DEPENDENCIES:Stage-4 is a root stageStage-3 depends on stages: Stage-4Stage-0 depends on stages: Stage-3STAGE PLANS:Stage: Stage-4Map Reduce Local WorkAlias -> Map Local Tables:mgFetch Operatorlimit: -1Alias -> Map Local Operator Tree:mgTableScanalias: mgStatistics: Num rows: 1 Data size: 79 Basic stats: COMPLETE Column stats: NONEFilter Operatorpredicate: id is not null (type: boolean)Statistics: Num rows: 1 Data size: 79 Basic stats: COMPLETE Column stats: NONEHashTable Sink Operatorkeys:0id (type: int)1id (type: int)Stage: Stage-3Map ReduceMap Operator Tree:TableScanalias: etStatistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEFilter Operatorpredicate: id is not null (type: boolean)Statistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEMap Join Operatorcondition map:Inner Join 0 to 1keys:0id (type: int)1id (type: int)outputColumnNames: _col0, _col1, _col2, _col6, _col7, _col8Statistics: Num rows: 1 Data size: 354 Basic stats: COMPLETE Column stats: NONESelect Operatorexpressions: _col0 (type: int), _col1 (type: string), _col2 (type: string), _col6 (type: int), _col7 (type: string), _col8 (type: string) outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5Statistics: Num rows: 1 Data size: 354 Basic stats: COMPLETE Column stats: NONEFile Output Operatorcompressed: falseStatistics: Num rows: 1 Data size: 354 Basic stats: COMPLETE Column stats: NONEtable:input format: org.apache.hadoop.mapred.TextInputFormatoutput format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatserde: zySimpleSerDeLocal Work:Map Reduce Local WorkStage: Stage-0Fetch Operatorlimit: -1Processor Tree:ListSink 2.3 group by explain select city,sum(id) from dept_et group by city; 执⾏计划如下:STAGE DEPENDENCIES:Stage-1 is a root stageStage-0 depends on stages: Stage-1STAGE PLANS:Stage: Stage-1Map ReduceMap Operator Tree:TableScan //表扫描alias: dept_etStatistics: Num rows: 3 Data size: 322 Basic stats: COMPLETE Column stats: NONE //表dept_et的统计数据预估Select Operator //查询列裁剪,表⽰只需要 city (type: string), id (type: int) 两列expressions: city (type: string), id (type: int)outputColumnNames: city, idStatistics: Num rows: 3 Data size: 322 Basic stats: COMPLETE Column stats: NONEGroup By Operatoraggregations: sum(id) //分组执⾏函数=>sum(id)keys: city (type: string)mode: hashoutputColumnNames: _col0, _col1Statistics: Num rows: 3 Data size: 322 Basic stats: COMPLETE Column stats: NONEReduce Output Operatorkey expressions: _col0 (type: string) //Map端输出的Key是_col0(hash(city))sort order: +Map-reduce partition columns: _col0 (type: string)Statistics: Num rows: 3 Data size: 322 Basic stats: COMPLETE Column stats: NONEvalue expressions: _col1 (type: bigint) //Map端输出的Value是_col1(sum(id))Reduce Operator Tree:Group By Operatoraggregations: sum(VALUE._col0keys: KEY._col0 (type: string)mode: mergepartial //partial(多个map的输出)merge(合并)outputColumnNames: _col0, _col1Statistics: Num rows: 1 Data size: 107 Basic stats: COMPLETE Column stats: NONEFile Output Operatorcompressed: falseStatistics: Num rows: 1 Data size: 107 Basic stats: COMPLETE Column stats: NONEtable:input format: org.apache.hadoop.mapred.TextInputFormatoutput format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatserde: zySimpleSerDeStage: Stage-0Fetch Operatorlimit: -1Processor Tree:ListSink 2.4 distinct 2.4.1 distinct⼀个 select city,count(distinct(name)) from dept_et group by city; 只有⼀个distinct,将group字段和distinct字段⼀起组合为Map的输出Key,然后把group字段作为Reduce的Key,在Reduce阶段保存LastKey STAGE DEPENDENCIES:Stage-1 is a root stageStage-0 depends on stages: Stage-1STAGE PLANS:Stage: Stage-1Map ReduceMap Operator Tree:TableScanalias: dept_etStatistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONESelect Operatorexpressions: city (type: string), name (type: string) //没有计算函数,直接是查询原值outputColumnNames: city, nameStatistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEGroup By Operatoraggregations: count(DISTINCT name)keys: city (type: string), name (type: string)mode: hashoutputColumnNames: _col0, _col1, _col2Statistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEReduce Output Operatorkey expressions: _col0 (type: string), _col1 (type: string)sort order: ++Map-reduce partition columns: _col0 (type: string)Statistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONE  Reduce Operator Tree:Group By Operatoraggregations: count(DISTINCT KEY._col1:0._col0)keys: KEY._col0 (type: string)mode: mergepartialoutputColumnNames: _col0, _col1Statistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEFile Output Operatorcompressed: falseStatistics: Num rows: 1 Data size: 322 Basic stats: COMPLETE Column stats: NONEtable:input format: org.apache.hadoop.mapred.TextInputFormatoutput format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatserde: zySimpleSerDeStage: Stage-0Fetch Operatorlimit: -1Processor Tree:ListSink 2.4.2 多个distinct字段 select dealid, count(distinct uid), count(distinct date) from order group by dealid;。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

MR迭代次数推测
• Sql语句之我见
– 聚合函数
• max、min、avg、count、distinct
– 连接
• Join、left outer join、right outer join。。
• 多表连接迭代推测
– – – – Select …from a join b on a.id = b.id Select col1,..count(col2) from a join b on .. Select col1,..count(distinct col2) from a join b on .. 公式：逢join、distinct加1，遇mapjoin减1
Hive优化以及执行原理
数据平台杨新彦 2014-01-13
1. 整体架构优化
2. MR阶段优化
3. JOB优化 4. SQL作业优化 5. 平台优化
开发量大
为什么要用hive
SELECT word, count(1) FROM ( select explode(split(line,’\s’ )) AS word FROM article )w GROUP BY word ORDER BY word
count distinct数据倾斜
• Select count(distinct id) from acorn_3g.iplog where log_date like ‘2013-12%’;
– 耗时：1600S
• Select count(1) from (select distinct id from acorn_3g.iplog where log_date like ‘2013-12%’ and id>0) tmp;
Shuffle阶段优化
• 压缩中间数据
– 减少磁盘操作 – 减少网络传输数据量
• 配置方法
– press.map.output 设为true – pression.codec
• press.LzoCodec • press.SnappyCodec
– 耗时：600s
SQL作业优化
作业并行执行 MR迭代次数推测业务sql优化
Sql并行执行
• hive.exec.parallel=true (default false) • hive.exec.parallel.thread.number =8 (default 8) • hive并行执行sql
简单
3
Hive架构&执行流程
Luna离线数据平台
Hive执行流程&操作符
操作符 TableScanOperator ReduceSinkOperator JoinOperator SelectOperator FileSinkOperator FilterOperator GroupByOperator MapJoinOperator LimitOperator UnionOperator 描述扫描hive表数据创建将发送到Reduce端的<key,reduce>对 Join两份数据选择输出列建立结果数据，输出至文件过滤输入数据 Group By语句 /*+mapjoin(t)*/ Limit语句 Union语句
Spark生态环境
迭代计算 SPARK 流数据处理 Spark Streaming 机器学习 GraphX、MLlib
离线数据平台
参考文献
• • • • • 数据平台Hive相关实践数据平台Spark相关探索 Hive官方文档 Spark官方文档阿里数据平台
逻辑执行计划
强大
7
Hive == RDBMS ? TRUE : FALSE
HIVE 查询语言
数据存储
RDBMS SQL
RAW Devices ACID YES Excutor 20 nodes 小低数据分析OR线上高
HQL
HDFS NO Yes（待测试） MR BIG BIG 大大高数据分析一般
– hive.exec.reducers.max 默认：999 – hive.exec.reducers.bytes.per.reducer 默认：1G
• 切割算法
– numRTasks = min[maxReducers,input.size/perReducer]
• maxReducers = ${hive.exec.reducers.max} • perReducer = {hive.exec.reducers.bytes.per.reducer}
Shuffle参数
Map端参数 Reduce端参数
• • • • •
io.sort.mb io.sort.spill.percent bine io.sort.factor io.sort.record.percent
• mapred.reduce.parallel.copies • mapred.reduce.copy.backoff • io.sort.factor • mapred.job.shuffle.input.buffer.percent • mapred.job.shuffle.input.buffer.percent • mapred.job.reduce.input.buffer.percent
• 伪分式
– 正常job
JOIN算法
• Common join • Map join • Bucket map join
Map join
• hive.auto.convert.join=true (default false) • hive.mapjoin.smalltable.filesize=600M(default 25M) • Select /*+MAPJOIN(a)+*/ ..a join b强制指定 mapjoin
– 耗时：260s
common join倾斜
• select m.uid as user_id,m.from_id,m.app_id,m.is_auto,u.stage from acorn_3g.mcs_access m join user u on m.uid = u.id where m.log_date='2013-12-12’;
JOB优化
• 执行模式 • JOIN算法 • 数据倾斜
执行模式
• 本地模式（小数据量）
– – – – hive.exec.mode.local.auto=true hive.exec.mode.local.auto.inputbytes.max(128MB by default) hive.exec.mode.local.auto.tasks.max(4 by default) num_reduce_tasks <= 1
事物
索引执行扩展性数据规模执行延迟业务硬件配置
8
建索引
查询慢 ? 建索引 ? NO!
9
1. 整体架构优化
2. MR阶段优化
3. JOB优化 4. SQL作业优化 5. 平台优化
Datawarehouse优化
表分区、动态分区
• 查询维度、业务需求 • 日期分区 • 类型分区
压缩、分布式缓存优化
• 切割算法
– splitSize = max[minSize,min(maxSize,blockSize)] – minSize = ${mapred.min.split.size} – maxSize = ${mapred.max.split.size}
• 列裁剪 hive.optimize.cp=true • map端聚合 hive.map.aggr=true • Map端谓语下推 hive.optimize.ppd=true
– 耗时：最起码2个小时
• select m.uid,m.from_id,m.app_id,m.is_auto,u.stage from user u join (select m.uid,m.from_id,m.app_id,m.is_auto from acorn_3g.mcs_access m where log_date='2013-12-12' and uid>0 group by m.uid,m.from_id,m.app_id,m.is_auto) m on m.uid = u.id
业务优化
• 多条件用户id筛选
– 筛选8个省份，每省特定条件用户ID 20，000个
• 周wau、周wau保留率
– 最近半年400G数据 – 2千万*180天行记录
Hive之吐槽
• • • • 加强公用UDF函数异常JOB探测，培训优化 Hive tez，脱胎换骨 Spark shark，业界良心，大趋势
• 原始日志BZ2压缩 • MR中间输出LZO压缩 • 中间表SEQUENCEFILE、RCFILE格式
MR阶段优化
• MAP阶段优化
• REDUCE阶段优化 • SHUFFLE阶段优化
MAP阶段优化
• mapred.map.tasks 无效 • num_map_tasks切割大小影响参数
– mapred.max.split.size 默认： 256M – mapred.min.split.size 默认： 1B – dfs.block.size 默认：128M
Bucket Map Join
• set hive.optimize.bucketmapjoin=true • mapjoin一起工作 • 所有要join的表必须分桶，大表的桶的个数是小表的整数倍 • 做了bucket的列必须等于join的列
数据倾斜
• count distinct
• common join