存储配置
| 
       参数  | 
     
       描述  | 
     
       默认值  | 
    
|---|---|---|
| 
       hoodie.parquet.max.file.size  | 
     
       Hudi写阶段生成的parquet文件的目标大小。对于DFS,这需要与基础文件系统块大小保持一致,以实现最佳性能。  | 
     
       120 * 1024 * 1024 byte  | 
    
| 
       hoodie.parquet.block.size  | 
     
       parquet页面大小,页面是parquet文件中的读取单位,在一个块内,页面被分别压缩。  | 
     
       120 * 1024 * 1024 byte  | 
    
| 
       hoodie.parquet.compression.ratio  | 
     
       当Hudi尝试调整新parquet文件的大小时,预期对parquet数据进行压缩的比例。 如果bulk_insert生成的文件小于预期大小,请增加此值。  | 
     
       0.1  | 
    
| 
       hoodie.parquet.compression.codec  | 
     
       parquet压缩编解码方式名称,默认值为gzip。可能的选项是[gzip | snappy | uncompressed | lzo]  | 
     
       snappy  | 
    
| 
       hoodie.logfile.max.size  | 
     
       LogFile的最大值。这是在将日志文件移到下一个版本之前允许的最大值。  | 
     
       1GB  | 
    
| 
       hoodie.logfile.data.block.max.size  | 
     
       LogFile数据块的最大值。这是允许将单个数据块附加到日志文件的最大值。 这有助于确保附加到日志文件的数据被分解为可调整大小的块,以防止发生OOM错误。此大小应大于JVM内存。  | 
     
       256MB  | 
    
| 
       hoodie.logfile.to.parquet.compression.ratio  | 
     
       随着记录从日志文件移动到parquet,预期会进行额外压缩的比例。 用于merge_on_read存储,以将插入内容发送到日志文件中并控制压缩parquet文件的大小。  | 
     
       0.35  |