更新时间:2025-04-01 GMT+08:00
分享

Clean篇

如何判断clean是否在执行?

判断标准:

查看.hoodie目录,如果该目录里有.clean结尾的元数据文件存在,则clean在执行。

举例:

  • Hudi表未做过clean:

  • Hudi表做过clean:

如何判断clean是否设置的合理?

判断标准:

随机找一个近期写的parquet文件,parquet文件名称中第一个下划线之前的内容就是FileID,FileID相同的parquet文件数量就是文件版本数。通用场景下,Hudi表文件版本数不超过5或者更小。

举例:

文件版本数最大是2,clean正常:

相关文档