CLEAN_FILE
命令功能
用于清理Hudi表目录下的无效数据文件。
命令格式
call clean_file(table => '[table_name]', start_instant_time=>'[start_time]', end_instant_time=>'[end_time]', mode=>'[op_type]', backup_path=>'[backup_path]', parallelism => '[parallelism]');
参数描述
参数 |
描述 |
---|---|
table_name |
需要清理无效数据文件的Hudi表的表名,必选。 |
op_type |
命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。 dry_run:显示需要清理的无效数据文件。 repair:显示并清理无效的数据文件。 undo:恢复已清理的数据文件 query:显示已执行清理操作的备份目录。 |
backup_path |
运行模式为undo时有效,需要恢复数据文件的备份目录,必选。 |
start_time |
运行模式为dry_run、repair时有效,产生无效数据文件的开始时间,可选,默认不限制开始时间。 |
end_time |
运行模式为dry_run、repair时有效,产生无效数据文件的结束时间,可选,默认不限制结束时间。 |
parallelism |
运行模式为dry_run、repair和undo时有效,设置并行度,默认为2。 |
示例
call clean_file(table => 'h1', mode=>'repair', parallelism => 2); call clean_file(table => 'h1', mode=>'dry_run', parallelism => 2); call clean_file(table => 'h1', mode=>'query'); call clean_file(table => 'h1', mode=>'undo', backup_path=>'/tmp/hudi/h1/.hoodie/.cleanbackup/hoodie_repair_backup_20220222222222', parallelism => 2);
注意事项
命令只清理无效的parquet和log文件。
系统响应
可在driver日志和客户端中查看命令运行成功或失败。