更新时间:2024-07-19 GMT+08:00
Cleaning
Cleaning用于清理不再需要的版本数据。
Hudi使用Cleaner后台作业,不断清除不需要的旧得版本的数据。通过配置hoodie.cleaner.policy和hoodie.cleaner.commits.retained可以使用不同的清理策略和保存的commit数量。
执行cleaning有两种方式:
- 同步clean由参数hoodie.clean.automatic控制,默认自动开启。
datasource写入时可以通过.option("hoodie.clean.automatic", "false")来关闭自动clean。
spark-sql写入时可以通过set hoodie.clean.automatic=false;来关闭自动clean。
- 异步clean可以使用spark-sql来执行。
更多clean相关参数请参考compaction&cleaning配置章节。
父主题: 数据管理维护