更新时间:2024-11-29 GMT+08:00

配置parquet表的压缩格式

配置场景

当前版本对于parquet表的压缩格式分以下两种情况进行配置:

  1. 对于分区表,需要通过parquet本身的配置项“parquet.compression”设置parquet表的数据压缩格式。如在建表语句中设置tblproperties:"parquet.compression"="snappy"。
  2. 对于非分区表,需要通过“spark.sql.parquet.compression.codec”配置项来设置parquet类型的数据压缩格式。直接设置“parquet.compression”配置项是无效的,因为它会读取“spark.sql.parquet.compression.codec”配置项的值。当“spark.sql.parquet.compression.codec”未做设置时默认值为“snappy”,“parquet.compression”会读取该默认值。

因此,“spark.sql.parquet.compression.codec”配置项只适用于设置非分区表的parquet压缩格式。

配置参数

参数入口:

在Manager系统中,选择“集群 > 服务 > Spark > 配置”,单击“全部配置”,在搜索框中输入参数名称。

表1 参数介绍

参数

描述

默认值

spark.sql.parquet.compression.codec

对于非分区parquet表,设置其存储文件的压缩格式。

snappy