更新时间:2024-11-29 GMT+08:00

CLEAN_FILE

命令功能

用于清理Hudi表目录下的无效数据文件。

命令格式

call clean_file(table => '[table_name]', start_instant_time=>'[start_time]', end_instant_time=>'[end_time]', mode=>'[op_type]', backup_path=>'[backup_path]', parallelism => '[parallelism]');

参数描述

表1 参数描述

参数

描述

table_name

需要清理无效数据文件的Hudi表的表名,必选。

op_type

命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。

dry_run:显示需要清理的无效数据文件。

repair:显示并清理无效的数据文件。

undo:恢复已清理的数据文件

query:显示已执行清理操作的备份目录。

backup_path

运行模式为undo时有效,需要恢复数据文件的备份目录,必选。

start_time

运行模式为dry_run、repair时有效,产生无效数据文件的开始时间,可选,默认不限制开始时间。

end_time

运行模式为dry_run、repair时有效,产生无效数据文件的结束时间,可选,默认不限制结束时间。

parallelism

运行模式为dry_run、repair和undo时有效,设置并行度,默认为2。

示例

call clean_file(table => 'h1', mode=>'repair', parallelism => 2);
call clean_file(table => 'h1', mode=>'dry_run', parallelism => 2);
call clean_file(table => 'h1', mode=>'query');
call clean_file(table => 'h1', mode=>'undo', backup_path=>'/tmp/hudi/h1/.hoodie/.cleanbackup/hoodie_repair_backup_20220222222222', parallelism => 2);

注意事项

命令只清理无效的parquet和log文件。

系统响应

可在driver日志和客户端中查看命令运行成功或失败。