HIVE优化

概述

Hive架构

Hive提供了Hadoop的SQL能力，主要参考标准的SQL，Hive进行了部分的修改，形成了自己的特有的SQL语法HQL（Hive SQL），更加适合于Hadoop的分布式体系，该SQL目前是Hadoop体系的事实标准。

Hive调优

用户输入HQL，Hive将HQL进行词法解析，语法解析，之后生成执行计划，并对执行计划进行优化，最后提交任务给YARN去执行。所以Hive的调优分为以下几个部分：

接入层：主要包括用户的连接性能，如网络速度、认证、连接并发数。
HiveServer：以SQL的优化为主，执行计划是SQL优化的主要手段，通过接口查看Hive对整个SQL语句是如何进行任务的分解和编排，并结合MapReduce/Spark的执行情况针对性地进行任务的优化。
HiveMetaStore：因为Hive的MetaStore可能是外部的独立数据库，所以它的性能也会影响到整个HiveServer的性能，主要包括HiveMetaStore访问时间，访问次数，连接并发数。
MapReduce/Spark：以该组件进行执行时，MapReduce/Spark执行的情况直接引影响到Hive的性能，如每个任务的大小，任务与资源分配均匀度，任务拆分合理度等。
HDFS：最底层的IO读也是性能的关键，主要考虑的指标是读取和写入的性能，还包括块大小合理设置等。

其中MapReduce/Spark/HDFS组件有自己独立的调优手册及文档，请参考对应组件的调优。本文档重点讨论上述的1，2，3部分的性能调优的内容，并结合MapReduce/Spark的进行调优说明。

批处理业务

批处理主要特点是耗时时间长，消耗的资源比较多，主要的调优和设计推荐如下：

尽量使用ORC File，配上合适的压缩算法，主要可选的压缩算法为Zlib和Snappy。其中Zlib压缩比高，但压缩解压时间比Snappy长，消耗资源比如Snappy多。Snappy平衡了的压缩比和压缩解压的性能。推荐使用Snappy。
尽量使用Map Join减少Shuffle的次数，大幅提升性能
不同SQL语句，完成同一个功能，生成Map Reduce的数量越少越好
Hive系统默认是典型的配置场景，结合业务实际情况，可以做一些参数的调整，如文件块的大小，Map个数与Reduce的个数，压缩算法等。
合理地使用分区，分区数量不要太多，查询的SQL尽量指定具体的分区值；

衡量指标

衡量指标主要用于查看相应的指标来发现Hive服务或执行过程中的一些问题，尽快能定位Hive的性能问题。通常我们查看指标的顺序应该是通用指标，接入层指标，HiveMetaStore，HiveServer相关指标，其它相关组件的指标（如MapReduce/Spark/HDFS）。下面列举目前可查看到的相关指标信息：