存储配置
参数 |
描述 |
默认值 |
---|---|---|
hoodie.parquet.max.file.size |
Hudi写阶段生成的parquet文件的目标大小。对于DFS,这需要与基础文件系统块大小保持一致,以实现最佳性能。 |
120 * 1024 * 1024 byte |
hoodie.parquet.block.size |
parquet页面大小,页面是parquet文件中的读取单位,在一个块内,页面被分别压缩。 |
120 * 1024 * 1024 byte |
hoodie.parquet.compression.ratio |
当Hudi尝试调整新parquet文件的大小时,预期对parquet数据进行压缩的比例。 如果bulk_insert生成的文件小于预期大小,请增加此值。 |
0.1 |
hoodie.parquet.compression.codec |
parquet压缩编解码方式名称,默认值为gzip。可能的选项是[gzip | snappy | uncompressed | lzo] |
gzip |
hoodie.logfile.max.size |
LogFile的最大值。这是在将日志文件移到下一个版本之前允许的最大值。 |
1GB |
hoodie.logfile.data.block.max.size |
LogFile数据块的最大值。这是允许将单个数据块附加到日志文件的最大值。 这有助于确保附加到日志文件的数据被分解为可调整大小的块,以防止发生OOM错误。此大小应大于JVM内存。 |
256MB |
hoodie.logfile.to.parquet.compression.ratio |
随着记录从日志文件移动到parquet,预期会进行额外压缩的比例。 用于merge_on_read存储,以将插入内容发送到日志文件中并控制压缩parquet文件的大小。 |
0.35 |
hoodie.parquet.compression.codec |
Parquet文件的压缩编解码方式。 |
gzip |