CLEAN_FILE
命令功能
用于清理Hudi表目录下的无效数据文件。
命令格式
call clean_file(table => '[table_name]', mode=>'[op_type]', backup_path=>'[backup_path]', start_instant_time=>'[start_time]', end_instant_time=>'[end_time]');
参数描述
参数 |
描述 |
---|---|
table_name |
需要清理无效数据文件的Hudi表的表名,必选。 |
op_type |
命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。 dry_run:显示需要清理的无效数据文件。 repair:显示并清理无效的数据文件。 undo:恢复已清理的数据文件 query:显示已执行清零操作的备份目录。 |
backup_path |
运行模式为undo时有效,需要恢复数据文件的备份目录,必选。 |
start_time |
运行模式为dry_run、repair时有效,产生无效数据文件的开始时间,可选,默认不限制开始时间。 |
end_time |
运行模式为dry_run、repair时有效,产生无效数据文件的结束时间,可选,默认不限制结束时间。 |
示例
call clean_file(table => 'h1', mode=>'repair'); call clean_file(table => 'h1', mode=>'dry_run'); call clean_file(table => 'h1', mode=>'query'); call clean_file(table => 'h1', mode=>'undo', backup_path=>'obs://bucket/hudi/h1/.hoodie/.cleanbackup/hoodie_repair_backup_20230527');
注意事项
命令只清理无效的parquet文件。
系统响应
可以检查任务状态是否成功,查看任务结果,查看任务日志确认有无异常。