大数据性能优化之Hive优化

合集下载

深入理解Hive的查询执行计划与优化策略

深入理解Hive的查询执行计划与优化策略

深入理解Hive的查询执行计划与优化策略Hive是一种在Hadoop生态系统中运行的数据仓库工具,它提供了Hive查询语言(HQL),允许用户以类似于SQL的方式进行数据查询和分析。

然而,由于Hive在Hadoop上运行,数据量通常庞大且分布广泛,因此查询性能和效率成为关键问题。

为了优化Hive查询,我们需要深入了解Hive的查询执行计划和优化策略。

一、查询执行计划在Hive中,查询执行计划是指查询语句在执行之前的逻辑计划和执行计划。

逻辑计划描述了执行查询所需的转换和操作,而执行计划则是根据物理资源和数据分布来优化查询的实际执行计划。

1. 逻辑计划Hive将查询语句转换为逻辑计划,该计划是一个以树状结构表示的操作符序列。

这些操作符包括从表中选择数据、过滤数据、合并结果等。

逻辑计划不关心具体的物理资源和数据分布,只考虑查询语句的语义和逻辑关系。

2. 执行计划执行计划是根据逻辑计划和物理资源进行优化的实际计划。

在生成执行计划时,Hive会考虑查询的数据分布、数据倾斜、数据压缩等因素,以及执行查询所需的资源(CPU、内存等)。

执行计划可以通过Explain命令来查看,它显示了Hive的查询优化过程。

二、优化策略为了提高查询性能和效率,Hive提供了多种优化策略。

下面介绍几种常用的优化策略:1. 分区剪枝分区剪枝是指在执行查询时,根据查询条件的分区键过滤无关分区,从而减少数据扫描的量和执行时间。

Hive会在执行计划中添加分区剪枝操作,根据查询条件和分区键的关系自动剪除不需要扫描的分区。

2. 列剪枝列剪枝是指根据查询语句中所需的列,优化执行计划,只从存储中读取必要的列数据,而不是读取整个表的数据。

这样可以减少磁盘I/O和数据传输的量,从而提高查询性能。

3. 合并MapReduce任务Hive通常使用MapReduce作为执行引擎,将查询转换为多个MapReduce任务进行并行计算。

然而,如果多个任务可以合并为一个任务,可以显著减少任务之间的数据传输和开销,提高执行效率。

Hive优化

Hive优化

优化常用的手段
•解决数据倾斜问题 •减少job数(合并MapReduce,用Multi-group by) •设置合理的map reduce的task数,能有效提升性能。 •数据量较大的情况下,慎用count(distinct)。 •对小文件进行合并,针对文件数据源。
优化案例
1、Join原则 • 将条目少的表/子查询放在 Join的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join左边的表的内容 会被加载进内存,将条目少的表放在左边,可以有 效减少发生内存溢出的几率。 • • 当一个小表关联一个超大表时,容易发生数据倾斜, 可以用MapJoin把小表全部加载到内存在map端进行 join,避免reducer处理。 • 如:SELECT /*+ MAPJOIN(user) */ l.session_id, ername from user u join page_views l on (u. id=er_id) ;
优化案例
4、设置合理reducer个数 reducer个数的设定极大影响执行效率 •不指定reducer个数的情况下,Hive分配reducer个数基于以下: 参数1:hive.exec.reducers.bytes.per.reducer(默认为1G) 参数2 :hive.exec.reducers.max(默认为999) •计算reducer数的公式 •N=min(参数2,总输入数据量/参数1) set mapred.reduce.tasks=13; •reduce个数并不是越多越好 同map一样,启动和初始化reduce也会消耗时间和资源;有多少个 reduce,就会有多少个输出文件。 Reducer数过多: 生成了很多个小文件,那么如果这些小文件作为下一个任务的输 入,则也会出现小文件过多的问题。 Reducer过少: 影响执行效率。

Hive优化

Hive优化

Hive优化1 概述1.1 Hive的特征1.可以通过SQL轻松访问数据的工具,从而实现数据仓库的任务,报告和数据分析等。

2.可以使已经存储的数据结构化。

3.可以直接访问存储在HDFS或者其他数据存储系统中的文件。

4.Hive除了支持MapReduce计算引擎之外还支持Spark和Tez这两种分布式计算引擎。

5.提供了类似sql查询语句的HiveSql对数据进行分析。

6.存储格式多样化。

1.2 Hive优势Hive的强大之处不是在与将数据转换成特定格式,而是利用Hadoop本身的InputFormat API来从不同的数据源中读取数据,然后使用OutputFormat API将数据写成不同的格式。

所以对于不同的数据源,或者写出不同的格式就需要不同的对应的InputFormat和OutputFormat类的实现。

Hive拥有统一的元数据管理,所以和spark,impala等SQL引擎通用。

(通用指的是拥有了统一的Metastore之后,在Hive中创建一张表,在spark/impala中能通用,反之在spark中创建一张表,在Hive中也是能用的)只需要共用元数据,就可以切换SQL引擎了。

Hive使用SQL语法,提供快速开发能力,还可以通过用户定义的函数,用户定义的聚合和用户定义的表函数进行扩展,避免了去写MapReduce,减少开发人员学习成本。

Hive中不仅可以使用逗号和制表符分隔文本文件。

还可以使用sequence File、RC、ORC、Parquet。

Hive指在最大限度的提高可伸缩性,性能,可扩展性,容错性以及与其输出格式的松散耦合。

数据离线处理:日志分析,海量数据结构化分析。

2 Hive函数Hive的SQL可以通过用户定义的函数,用户定义的聚合和用户定义的表函数进行扩展当Hive提供的内置函数无法满足你的业务需求时,此时就可以考虑使用用户自定义函数UDF(用户定义函数),UDAF(用户定义聚合函数),UDTF(用户定义表函数)的区别:▪udf 一进一出▪udaf 聚集函数,多进一出▪udtf 一进多出3 Hive优化3.1 慎用api大数据场景下不害怕数据量大,但是害怕数据倾斜。

深入理解Hive查询优化与执行计划

深入理解Hive查询优化与执行计划

深入理解Hive查询优化与执行计划Hive是一个构建在Hadoop之上的数据仓库基础架构,具有高扩展性和容错性。

它提供了类似于SQL的查询语言——HiveQL,使得开发者可以使用SQL语句而不需要了解复杂的MapReduce编程。

尽管Hive在读取大型数据集时表现出色,但在进行复杂查询时,性能可能会受到影响。

为了优化查询性能并提高执行计划的效率,我们需要深入理解Hive查询优化与执行计划。

Hive查询优化的目标是提高查询性能和降低资源消耗。

为了实现这一目标,Hive查询优化器会尝试优化查询计划,选择更有效的操作顺序和算法,以减少数据读取和转换的开销。

下面将介绍一些常见的Hive查询优化技术。

首先是分区和分桶。

Hive能够根据表的列值将数据分成不同的分区,这样可以将查询范围限制在特定的分区上,减少查询的数据量。

分桶则是将数据分成更小的单位,使得查询操作只需要在一个桶(bucket)中进行,从而加快查询速度。

其次是索引和统计信息。

在Hive中,我们可以通过创建索引来加快查询速度。

索引可以在某些列上创建,从而快速定位满足特定条件的行。

另外,Hive还可以收集统计信息,例如表的大小、列的不同值的数量等,通过这些统计信息,优化器能够根据查询条件评估并选择更优的执行计划。

还有一项重要的优化技术是数据倾斜处理。

在某些情况下,某些列的值分布极不均匀,导致某些任务运行时间较长。

为了解决这个问题,可以通过数据重塑、倾斜处理或使用动态分区等方法来解决数据倾斜问题。

一旦我们了解了Hive查询优化技术,我们就需要关注执行计划的生成和调优。

执行计划是Hive为我们的查询所准备的一系列任务和操作的有序列表。

对于复杂的查询,执行计划的优化非常关键。

Hive将查询分成多个阶段,并将每个阶段分解成更小的任务。

任务的划分依赖于数据的分区和桶,以及并行处理的配置。

根据查询的复杂性和数据规模,Hive 可能生成很多任务,这些任务会在集群中并行执行。

数据分析利器之hive优化十大原则

数据分析利器之hive优化十大原则

数据分析利器之hive优化⼗⼤原则hive之于数据民⼯,就如同锄头之于农民伯伯。

hive⽤的好,才能从地⾥(数据库)⾥挖出更多的数据来。

⽤过hive的朋友,我想或多或少都有类似的经历:⼀天下来,没跑⼏次hive,就到下班时间了。

hive在极⼤数据或者数据不平衡等情况下,表现往往⼀般,因此也出现了presto、spark-sql等替代品。

今天不谈其它,就来说说关于hive,个⼈的⼀点⼼得。

⼀. 表连接优化1. 将⼤表放后头Hive假定查询中最后的⼀个表是⼤表。

它会将其它表缓存起来,然后扫描最后那个表。

因此通常需要将⼩表放前⾯,或者标记哪张表是⼤表:/*streamtable(table_name) */2. 使⽤相同的连接键当对3个或者更多个表进⾏join连接时,如果每个on⼦句都使⽤相同的连接键的话,那么只会产⽣⼀个MapReduce job。

3. 尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使⽤到的字段。

4. 尽量原⼦化操作尽量避免⼀个SQL包含复杂逻辑,可以使⽤中间表来完成复杂的逻辑⼆. ⽤insert into替换union all如果union all的部分个数⼤于2,或者每个union部分数据量⼤,应该拆成多个insert into 语句,实际测试过程中,执⾏时间能提升50%如:insert overwite table tablename partition (dt= ....) select ..... from ( select ... from Aunion all select ... from B union all select ... from C ) R where ...;可以改写为:insert into table tablename partition (dt= ....) select .... from A WHERE ...; insert into table tablename partition (dt= ....) select ....from B WHERE ...; insert into table tablename partition (dt= ....) select .... from C WHERE ...;三. order by & sort byorder by : 对查询结果进⾏全局排序,消耗时间长。

hive优化要点总结电脑资料

hive优化要点总结电脑资料

hive优化要点总结电脑资料再好的硬件没有充分利用起来,都是白扯淡,比方:通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此严密相连的是模型设计,好的模型特别重要. reduce个数过少没有真正发挥hadoop并行计算的威力,但reduce 个数过多,会造成大量小文件问题,数据量、资源情况只有自己最清楚,找到个折衷点,比方:假设其中有一个表很小使用map join,否那么使用普通的reduce join,注意hive会将join前面的表数据装载内存,所以较小的一个表在较大的表之前,减少内存资源的消耗在hive里有两种比较常见的处理方法第一是使用Combinefileinputformat,将多个小文件打包作为一个整体的inputsplit,减少map任务数set mapred.max.split.size=256000000;set mapred.min.split.size.per.node=256000000set Mapred.min.split.size.per.rack=256000000sethive.input.format=bineHiveI nputFormat第二是设置hive参数,将额外启动一个MR Job打包小文件hive.merge.mapredfiles = false 是否合并Reduce输出文件,默认为Falsehive.merge.size.per.task = 256*1000*1000 合并文件的大小在hive里比较常用的处理方法第一通过hive.groupby.skewindata=true控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce做次预汇总,减少某些key值条数过多某些key条数过小造成的数据倾斜问题第二通过hive.map.aggr = true(默认为true)在Map端做biner,假设map各条数据根本上不一样, 聚合没什么意义,做biner反而画蛇添足,hive里也考虑的比较周到通过参数hive.groupby.mapaggr.checkinterval = 100000 (默认)hive.map.aggr.hash.min.reduction=0.5(默认),预先取100000条数据聚合,如果聚合后的条数/100000>0.5,那么不再聚合multi insert适合基于同一个源表按照不同逻辑不同粒度处理插入不同表的场景,做到只需要扫描源表一次,job个数不变,减少源表扫描次数union all用好,可减少表的扫描次数,减少job的个数,通常预先按不同逻辑不同条件生成的查询union all后,再统一group by计算,不同表的union all相当于multiple inputs,同一个表的union all,相当map一次输出多条集群参数种类繁多,举个例子比方可针对特定job设置特定参数,比方jvm重用,reduce copy线程数量设置(适合map较快,输出量较大)如果任务数多且小,比方在一分钟之内完成,减少task数量以减少任务初始化的消耗,:blog.csdn./u011750989/article/details/12024301。

Hive的10种优化总结

Hive的10种优化总结

Hive的10种优化总结Hive作为⼤数据领域常⽤的数据仓库组件,在平时设计和查询时要特别注意效率。

影响Hive效率的⼏乎从不是数据量过⼤,⽽是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。

对Hive的调优既包含对HiveSQL语句本⾝的优化,也包含Hive配置项和MR⽅⾯的调整。

列裁剪和分区裁剪最基本的操作。

所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。

以我们的⽇历记录表为例:select uid,event_type,record_datafrom calendar_record_logwhere pt_date >= 20190201 and pt_date <= 20190224and status = 0;当列很多或者数据量很⼤时,如果select *或者不指定分区,全列扫描和全表扫描效率都很低。

Hive中与列裁剪优化相关的配置项是hive.optimize.cp,与分区裁剪优化相关的则是hive.optimize.pruner,默认都是true。

在HiveSQL解析阶段对应的则是ColumnPruner逻辑优化器。

谓词下推在关系型数据库如MySQL中,也有谓词下推(Predicate Pushdown,PPD)的概念。

它就是将SQL语句中的where谓词逻辑都尽可能提前执⾏,减少下游处理的数据量。

例如以下HiveSQL语句:select a.uid,a.event_type,b.topic_id,b.titlefrom calendar_record_log aleft outer join (select uid,topic_id,title from forum_topicwhere pt_date = 20190224 and length(content) >= 100) b on a.uid = b.uidwhere a.pt_date = 20190224 and status = 0;对forum_topic做过滤的where语句写在⼦查询内部,⽽不是外部。

hive优化总结

hive优化总结

hive优化总结在大数据处理领域中,Hadoop已经成为主流的框架之一。

Hadoop 的一个重要组件是Hive,这是一个基于Hadoop的数据仓库基础工具。

Hive的目标是提供一个类SQL查询的接口,以便于对存储于Hadoop集群中的数据进行分析和查询。

然而,在实际使用中,Hive的性能和效率往往会受到限制。

本文将介绍一些提高Hive性能和优化的技巧和方法。

首先,要注意数据分区。

在Hive中,数据分区可以将数据以更细粒度的方式进行组织和存储,从而提高查询效率。

通过将数据分区存储在不同的目录中,Hive可以避免扫描整个数据集,并仅从感兴趣的分区中读取数据。

因此,正确地定义和使用数据分区是提高Hive性能的重要步骤之一。

其次,使用合适的表格式也是优化Hive的关键。

Hive支持多种表格式,例如文本、序列文件和列式存储等。

每种表格式都有自己的特点和适用场景。

在选择表格式时,需要考虑数据大小、查询类型以及存储需求等因素。

例如,对于需要频繁进行聚合操作的场景,列式存储格式通常更加高效。

另外,可以使用分桶技术来改善Hive的性能。

分桶是将表按照某个列的值进行分组,使得具有相同分桶值的数据存储在相同的桶中。

通过使用分桶技术,Hive可以更快地进行连接操作和过滤操作,从而提高查询效率。

在选择分桶列时,应选择具有较高的基数和较为均匀分布的列。

此外,使用Hive的索引功能也能够加速查询。

Hive支持对表中的列创建索引,从而可以更快地定位和访问数据。

通过使用索引,Hive可以减少全表扫描的开销,并且在一些特定的查询场景下,索引的使用可以显著提高查询性能。

然而,需要注意的是,索引会增加数据的存储空间和更新的成本,因此在使用索引时需要进行权衡。

最后,合理地配置Hive参数也是优化Hive性能的一项重要工作。

Hive的性能受到许多配置参数的影响,例如内存大小、并行度和任务调度等。

根据具体的场景和需求,可以对这些参数进行调整,以获得更好的性能和效率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hive性能优化1.概述本人在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。

下面开始本篇文章的优化介绍。

2.介绍首先,我们来看看hadoop的计算框架特性,在此特性下会衍生哪些问题?•数据量大不是问题,数据倾斜是个问题。

•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。

原因是map reduce作业初始化的时间是比较长的。

•sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map 端的汇总合并优化,使数据倾斜不成问题。

•count(distinct ),在数据量大的情况下,效率较低,如果是多count(distinct )效率更低,因为count(distinct)是按group by 字段分组,按distinct字段排序,一般这种分布方式是很倾斜的。

举个例子:比如男uv,女uv,像淘宝一天30亿的pv,如果按性别分组,分配2个reduce,每个reduce处理15亿数据。

面对这些问题,我们能有哪些有效的优化手段呢?下面列出一些在工作有效可行的优化手段:•好的模型设计事半功倍。

•解决数据倾斜问题。

•减少job数。

•设置合理的map reduce的task数,能有效提升性能。

(比如,10w+级别的计算,用160个reduce,那是相当的浪费,1个足够)。

•了解数据分布,自己动手解决数据倾斜问题是个不错的选择。

set hive.groupby.skewindata=true;这是通用的算法优化,但算法优化有时不能适应特定业务背景,开发人员了解业务,了解数据,可以通过业务逻辑精确有效的解决数据倾斜问题。

•数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。

•对小文件进行合并,是行至有效的提高调度效率的方法,假如所有的作业设置合理的文件数,对云梯的整体调度效率也会产生积极的正向影响。

•优化时把握整体,单个作业最优不如整体最优。

而接下来,我们心中应该会有一些疑问,影响性能的根源是什么?3.性能低下的根源hive性能优化时,把HiveQL当做M/R程序来读,即从M/R的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面。

RAC(Real Application Cluster)真正应用集群就像一辆机动灵活的小货车,响应快;Hadoop就像吞吐量巨大的轮船,启动开销大,如果每次只做小数量的输入输出,利用率将会很低。

所以用好Hadoop的首要任务是增大每次任务所搭载的数据量。

Hadoop的核心能力是parition和sort,因而这也是优化的根本。

观察Hadoop处理数据的过程,有几个显著的特征:•数据的大规模并不是负载重点,造成运行压力过大是因为运行数据的倾斜。

•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联对此汇总,产生几十个jobs,将会需要30分钟以上的时间且大部分时间被用于作业分配,初始化和数据输出。

M/R作业初始化的时间是比较耗时间资源的一个部分。

•在使用SUM,COUNT,MAX,MIN等UDAF函数时,不怕数据倾斜问题,Hadoop在Map端的汇总合并优化过,使数据倾斜不成问题。

•COUNT(DISTINCT)在数据量大的情况下,效率较低,如果多COUNT(DISTINCT)效率更低,因为COUNT(DISTINCT)是按GROUP BY字段分组,按DISTINCT字段排序,一般这种分布式方式是很倾斜的;比如:男UV,女UV,淘宝一天30亿的PV,如果按性别分组,分配2个reduce,每个reduce处理15亿数据。

•数据倾斜是导致效率大幅降低的主要原因,可以采用多一次Map/Reduce 的方法,避免倾斜。

最后得出的结论是:避实就虚,用job 数的增加,输入量的增加,占用更多存储空间,充分利用空闲CPU 等各种方法,分解数据倾斜造成的负担。

4.配置角度优化我们知道了性能低下的根源,同样,我们也可以从Hive的配置解读去优化。

Hive系统内部已针对不同的查询预设定了优化方法,用户可以通过调整配置进行控制,以下举例介绍部分优化的策略以及优化控制选项。

4.1列裁剪Hive 在读数据的时候,可以只读取查询中所需要用到的列,而忽略其它列。

例如,若有以下查询:SELECT a,b FROM q WHERE e<10;在实施此项查询中,Q 表有5 列(a,b,c,d,e),Hive 只读取查询逻辑中真实需要的3 列a、b、e,而忽略列c,d;这样做节省了读取开销,中间表存储开销和数据整合开销。

裁剪所对应的参数项为:hive.optimize.cp=true(默认值为真)4.2分区裁剪可以在查询的过程中减少不必要的分区。

例如,若有以下查询:SELECT*FROM (SELECTT a1,COUNT(1) FROM T GROUPBY a1) subq WHERE subq.prtn=100; #(多余分区)SELECT*FROM T1 JOIN (SELECT*FROM T2) subq ON (T1.a1=subq.a2) WHERE subq.prtn=100;查询语句若将“subq.prtn=100”条件放入子查询中更为高效,可以减少读入的分区数目。

Hive 自动执行这种裁剪优化。

分区参数为:hive.optimize.pruner=true(默认值为真)4.3JOIN操作在编写带有join 操作的代码语句时,应该将条目少的表/子查询放在Join 操作符的左边。

因为在Reduce 阶段,位于Join 操作符左边的表的内容会被加载进内存,载入条目较少的表可以有效减少OOM (out of memory)即内存溢出。

所以对于同一个key 来说,对应的value 值小的放前,大的放后,这便是“小表放前”原则。

若一条语句中有多个Join,依据Join 的条件相同与否,有不同的处理方法。

4.3.1JOIN原则在使用写有Join 操作的查询语句时有一条原则:应该将条目少的表/子查询放在Join 操作符的左边。

原因是在Join 操作的Reduce 阶段,位于Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生OOM 错误的几率。

对于一条语句中有多个Join 的情况,如果Join 的条件相同,比如查询:INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROMpage_view p JOINuser u ON (erid = erid) JOIN newuser x ON(erid = erid);•如果Join 的key 相同,不管有多少个表,都会则会合并为一个Map-Reduce•一个Map-Reduce 任务,而不是‘n’ 个•在做OUTER JOIN 的时候也是一样如果Join 的条件不相同,比如:INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROMpage_view p JOINuser u ON (erid = erid) JOIN newuser x on (u.age = x.age);Map-Reduce 的任务数目和Join 操作的数目是对应的,上述查询和以下查询是等价的:INSERT OVERWRITE TABLE tmptable SELECT*FROM page_view pJOINuser u ON (erid = erid); INSERT OVERWRITE TABLE pv_users SELECT x.pageid, x.age FROM tmptable x JOIN newuser y ON (x.age =y.age);4.4MAP JOIN操作Join 操作在Map 阶段完成,不再需要Reduce,前提条件是需要的数据在Map 的过程中可以访问到。

比如查询:INSERT OVERWRITE TABLE pv_users SELECT/*+ MAPJOIN(pv) */pv.pageid, u.age FROM page_view pv JOINuser u ON (erid = erid);可以在Map 阶段完成Join,如图所示:相关的参数为:•hive.join.emit.interval = 1000•hive.mapjoin.size.key = 10000•hive.mapjoin.cache.numrows = 100004.5GROUP BY操作进行GROUP BY操作时需要注意一下几点:•Map端部分聚合事实上并不是所有的聚合操作都需要在reduce部分进行,很多聚合操作都可以先在Map端进行部分聚合,然后reduce端得出最终结果。

这里需要修改的参数为:hive.map.aggr=true(用于设定是否在map 端进行聚合,默认值为真)hive.groupby.mapaggr.checkinterval=100000(用于设定map 端进行聚合操作的条目数)•有数据倾斜时进行负载均衡此处需要设定hive.groupby.skewindata,当选项设定为true 是,生成的查询计划有两个MapReduce 任务。

在第一个MapReduce 中,map 的输出结果集合会随机分布到reduce 中,每个reduce 做部分聚合操作,并输出结果。

这样处理的结果是,相同的Group By Key 有可能分发到不同的reduce 中,从而达到负载均衡的目的;第二个MapReduce 任务再根据预处理的数据结果按照Group By Key 分布到reduce 中(这个过程可以保证相同的Group By Key 分布到同一个reduce 中),最后完成最终的聚合操作。

4.6合并小文件我们知道文件数目小,容易在文件存储端造成瓶颈,给HDFS 带来压力,影响处理效率。

对此,可以通过合并Map和Reduce的结果文件来消除这样的影响。

用于设置合并属性的参数有:•是否合并Map输出文件:hive.merge.mapfiles=true(默认值为真)•是否合并Reduce 端输出文件:hive.merge.mapredfiles=false(默认值为假)•合并文件的大小:hive.merge.size.per.task=256*1000*1000(默认值为256000000)5.程序角度优化5.1熟练使用SQL提高查询熟练地使用SQL,能写出高效率的查询语句。

相关文档
最新文档