建立Hive表分区提升查询效率

操作场景

Hive在做Select查询时，一般会扫描整个表内容，会消耗较多时间去扫描不关注的数据。此时，可根据业务需求及其查询维度，建立合理的表分区，从而提高查询效率。

操作步骤

以root用户登录已安装Hive客户端的节点。
执行以下命令，进入客户端安装目录，例如“/opt/client”。
```
cd /opt/client
```
执行以下命令，配置客户端环境变量。
```
source bigdata_env
```
在客户端中执行如下命令，执行用户认证操作，集群未启用Kerberos认证（普通模式）请跳过该操作。
```
kinit 用户名
```
执行以下命令登录Hive客户端。
```
beeline
```
指定静态分区或者动态分区。
- 静态分区：
  静态分区是指手动输入分区名称，在创建表时使用关键字PARTITIONED BY指定分区列名及数据类型。应用开发时，使用ALTER TABLE ADD PARTITION语句增加分区，以及使用LOAD DATA INTO PARTITION语句将数据加载到分区时，只能加载到静态分区。
- 动态分区：通过查询命令，将结果插入到某个表的分区时，可以使用动态分区。
  动态分区通过在客户端执行如下命令开启：
```
set hive.exec.dynamic.partition=true;
```
  动态分区默认模式是“strict”，也就是必须至少指定一列为静态分区，在静态分区下建立动态子分区，可以通过如下设置分区模式为“nonstrict”开启完全的动态分区：
```
set hive.exec.dynamic.partition.mode=nonstrict;
```
需注意：
- 动态分区可能导致一个DML语句创建大量的分区，对应创建大量新文件夹，对系统性能可能带来影响。
- 在文件数量大的情况下，执行一个SQL语句启动时间较长，可以在执行SQL语句之前执行“set mapreduce.input.fileinputformat.list-status.num-threads = 100;”命令缩短启动时间。“mapreduce.input.fileinputformat.list-status.num-threads”参数需要先添加到Hive的白名单才可设置。

父主题： Hive性能调优

上一篇：Hive性能调优

下一篇：Hive Join数据优化

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消