更新时间:2024-07-19 GMT+08:00

Cleaning

Cleaning用于清理不再需要的版本数据。

Hudi使用Cleaner后台作业,不断清除不需要的旧得版本的数据。通过配置hoodie.cleaner.policy和hoodie.cleaner.commits.retained可以使用不同的清理策略和保存的commit数量。

执行cleaning有两种方式:

  • 同步clean由参数hoodie.clean.automatic控制,默认自动开启。

    关闭同步clean:

    datasource写入时可以通过.option("hoodie.clean.automatic", "false")来关闭自动clean。

    spark-sql写入时可以通过set hoodie.clean.automatic=false;来关闭自动clean。

  • 异步clean可以使用spark-sql来执行。

更多clean相关参数请参考compaction&cleaning配置章节。