文档首页/ 数据湖探索 DLI/ Hudi SQL语法参考/ 数据管理维护/ Hudi Clean操作说明

更新时间：2024-12-25 GMT+08:00

Hudi Clean操作说明

什么是Clean

Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件)，减轻存储压力，提升list操作效率。

如何执行Clean

写完数据后clean
- Spark SQL（设置如下参数，随后执行任意写入SQL时，在满足条件时触发）
```
hoodie.clean.automatic=true
hoodie.cleaner.commits.retained=10 // 默认值为10，根据业务场景指定
```
- SparkDataSource（option里设置如下参数，写数据时触发）
  hoodie.clean.automatic=true
  
  hoodie.cleaner.commits.retained=10 // 默认值为10，根据业务场景指定
- Flink（with属性里设置如下参数，写数据时触发）
  clean.async.enabled=true
  
  clean.retain_commits=10 // 默认值为10，根据业务场景指定
手动触发1次clean
- Spark SQL（set设置如下参数，手动触发1次）
```
hoodie.clean.automatic=true
hoodie.cleaner.commits.retained=10 // 默认值为10，根据业务场景指定
```
随后执行SQL，当Timeline中有10个以上的Instant记录时，会触发clean
```
run clean on ${table_name}
```

父主题： 数据管理维护

上一篇：Hudi Compaction操作说明

下一篇：Hudi Archive操作说明

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问