更新时间:2024-12-25 GMT+08:00
分享

CLEAN_FILE

命令功能

用于清理Hudi表目录下的无效数据文件。

命令格式

call clean_file(table => '[table_name]', mode=>'[op_type]', backup_path=>'[backup_path]', start_instant_time=>'[start_time]', end_instant_time=>'[end_time]');

参数描述

表1 参数描述

参数

描述

table_name

需要清理无效数据文件的Hudi表的表名,必选。

op_type

命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。

dry_run:显示需要清理的无效数据文件。

repair:显示并清理无效的数据文件。

undo:恢复已清理的数据文件

query:显示已执行清零操作的备份目录。

backup_path

运行模式为undo时有效,需要恢复数据文件的备份目录,必选。

start_time

运行模式为dry_run、repair时有效,产生无效数据文件的开始时间,可选,默认不限制开始时间。

end_time

运行模式为dry_run、repair时有效,产生无效数据文件的结束时间,可选,默认不限制结束时间。

示例

call clean_file(table => 'h1', mode=>'repair');
call clean_file(table => 'h1', mode=>'dry_run');
call clean_file(table => 'h1', mode=>'query');
call clean_file(table => 'h1', mode=>'undo', backup_path=>'obs://bucket/hudi/h1/.hoodie/.cleanbackup/hoodie_repair_backup_20230527');

注意事项

命令只清理无效的parquet文件。

系统响应

可以检查任务状态是否成功,查看任务结果,查看任务日志确认有无异常。

相关文档