使用ZSTD_JNI压缩算法压缩Hive ORC表

操作场景

ZSTD_JNI是ZSTD压缩算法的native实现，相较于ZSTD而言，压缩读写效率和压缩率更优些，并允许用户设置压缩级别，以及对特定格式的数据列指定压缩方式。

目前仅ORC格式的表支持ZSTD_JNI压缩方式，而普通的ZSTD压缩算法支持全量存储格式而不限于ORC，所以建议用户对数据压缩有要求的场景下再使用此特性。

操作示例

以Hive客户端安装用户登录安装客户端的节点。
执行以下命令，切换到客户端安装目录，例如安装目录为“/opt/client”，请用户根据实际情况修改。

cd /opt/client
执行以下命令配置环境变量。

source bigdata_env
集群认证模式是否为安全模式。
- 是，执行以下命令进行用户认证，然后执行5。
  kinit Hive业务用户
- 否，执行5。
执行以下命令登录Hive客户端。

beeline
ZSTD_JNI压缩格式的建表方式如下：
- 使用此压缩算法时，只需在创建ORC表时指定表属性参数“orc.compress”为ZSTD_JNI即可，如：
  create table tab_1(...) stored as orc TBLPROPERTIES("orc.compress"="ZSTD_JNI");
- ZSTD_JNI的压缩级别的取值范围为1~19，数值越高压缩比越高，相对压缩读写速率会变慢；数值越低压缩比越低，相对读写速率会变快，缺省默认值为“6”。建表时设置表属性参数“orc.global.compress.level”即可，如：
  create table tab_1(...) stored as orc TBLPROPERTIES("orc.compress"="ZSTD_JNI", 'orc.global.compress.level'='3');
- 用户可以对特定的数据格式列指定压缩，可对业务数据进一步压缩。当前识别的特定格式数据包括：Json数据列、BASE64数据列、时间戳数据列和UUID数据列。建表时设置表属性参数“orc.column.compress”即可。
  例如，以下示例指定了压缩格式为ZSTD_JNI，压缩列f2为json格式的数据，f3为BASE64格式的数据，f4为时间戳格式的数据，f5为UUID格式的数据：
  
  create table test_orc_zstd_jni(f1 int, f2 string, f3 string, f4 string, f5 string) stored as orc
  
  TBLPROPERTIES('orc.compress'='ZSTD_JNI', 'orc.column.compress'='[{"type":"cjson","columns":"f2"},{"type":"base64","columns":"f3"},{"type ":"gorilla","columns":{"format": "yyyy-MM-dd HH:mm:ss.SSS", "columns": "f4"}},{"type":"uuid","columns":"f5"}]');
  
  用户可根据实际情况按照对应格式插入数据即可实现进一步压缩的效果。

父主题： 使用Hive

上一篇：Hive异常文件定位定界工具

下一篇：HiveMetaStore客户端连接支持负载均衡

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消