更新时间:2024-11-26 GMT+08:00
分享

初始化存量表的分区

命令功能

计算每个历史分区的最后修改时间,以“lastUpdateTime=最后修改时间”的格式将每个分区的最后修改时间写入每个分区下的“.hoodie_partition_metadata”文件中。TTL会依据“当前系统时间 - 分区最后修改时间”来判断每个分区是否老化。

命令格式

call ttl_update_partitions(table => "[table]", path => "[path]", dryRun => [dryRun])
  • dryRun为true时会打印出每个分区的最后修改时间,但不会把每个分区的最后修改时间写入每个分区下的“.hoodie_partition_metadata”文件中。
  • dryRun为false时不仅会打印出每个分区的最后修改时间,而且会把每个分区的最后修改时间写入每个分区下的“.hoodie_partition_metadata”文件中。

参数描述

参数

描述

是否必填

table

String类型,表名或者库名.表名

否,table和path二选一

path

String类型,表的绝对路径

否,table和path二选一

dryRun

Boolean类型

是,false或者true,默认是false

示例

指定表名初始化TTL:

call ttl_update_partitions(table => "hudi_table", dryRun => true)

指定路径初始化TTL:

call ttl_update_partitions(path => "hdfs://hacluster/user/hive/warehouse/hudi_table/", dryRun => true)

相关文档