更新时间:2024-11-29 GMT+08:00
配置parquet表的压缩格式
配置场景
当前版本对于parquet表的压缩格式分以下两种情况进行配置:
- 对于分区表,需要通过parquet本身的配置项“parquet.compression”设置parquet表的数据压缩格式。如在建表语句中设置tblproperties:"parquet.compression"="snappy"。
- 对于非分区表,需要通过“spark.sql.parquet.compression.codec”配置项来设置parquet类型的数据压缩格式。直接设置“parquet.compression”配置项是无效的,因为它会读取“spark.sql.parquet.compression.codec”配置项的值。当“spark.sql.parquet.compression.codec”未做设置时默认值为“snappy”,“parquet.compression”会读取该默认值。
因此,“spark.sql.parquet.compression.codec”配置项只适用于设置非分区表的parquet压缩格式。
配置参数
参数入口:
在Manager系统中,选择“集群 > 服务 > Spark > 配置”,单击“全部配置”,在搜索框中输入参数名称。
参数 |
描述 |
默认值 |
---|---|---|
spark.sql.parquet.compression.codec |
对于非分区parquet表,设置其存储文件的压缩格式。 |
snappy |
父主题: 场景化参数