更新时间:2024-05-11 GMT+08:00

存储配置

参数

描述

默认值

hoodie.parquet.max.file.size

Hudi写阶段生成的parquet文件的目标大小。对于DFS,这需要与基础文件系统块大小保持一致,以实现最佳性能。

120 * 1024 * 1024 byte

hoodie.parquet.block.size

parquet页面大小,页面是parquet文件中的读取单位,在一个块内,页面被分别压缩。

120 * 1024 * 1024 byte

hoodie.parquet.compression.ratio

当Hudi尝试调整新parquet文件的大小时,预期对parquet数据进行压缩的比例。 如果bulk_insert生成的文件小于预期大小,请增加此值。

0.1

hoodie.parquet.compression.codec

parquet压缩编解码方式名称,默认值为gzip。可能的选项是[gzip | snappy | uncompressed | lzo]

snappy

hoodie.logfile.max.size

LogFile的最大值。这是在将日志文件移到下一个版本之前允许的最大值。

1GB

hoodie.logfile.data.block.max.size

LogFile数据块的最大值。这是允许将单个数据块附加到日志文件的最大值。 这有助于确保附加到日志文件的数据被分解为可调整大小的块,以防止发生OOM错误。此大小应大于JVM内存。

256MB

hoodie.logfile.to.parquet.compression.ratio

随着记录从日志文件移动到parquet,预期会进行额外压缩的比例。 用于merge_on_read存储,以将插入内容发送到日志文件中并控制压缩parquet文件的大小。

0.35