更新时间:2023-03-17 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
配置parquet表的压缩格式
配置场景
当前版本对于parquet表的压缩格式分以下两种情况进行配置:
- 对于分区表,需要通过parquet本身的配置项“parquet.compression”设置parquet表的数据压缩格式。如在建表语句中设置tblproperties:"parquet.compression"="snappy"。
 - 对于非分区表,需要通过“spark.sql.parquet.compression.codec”配置项来设置parquet类型的数据压缩格式。直接设置“parquet.compression”配置项是无效的,因为它会读取“spark.sql.parquet.compression.codec”配置项的值。当“spark.sql.parquet.compression.codec”未做设置时默认值为“snappy”,“parquet.compression”会读取该默认值。
 
因此,“spark.sql.parquet.compression.codec”配置项只适用于设置非分区表的parquet压缩格式。
配置参数
参数入口:
在Manager系统中,选择,单击“全部配置”,在搜索框中输入参数名称。
| 
        参数  | 
      
        描述  | 
      
        默认值  | 
     
|---|---|---|
| 
        spark.sql.parquet.compression.codec  | 
      
        对于非分区parquet表,设置其存储文件的压缩格式。  | 
      
        snappy  | 
     
   父主题: 场景化参数