更新时间:2024-12-11 GMT+08:00

Flink流式读Hudi表规则

Flink流式读Hudi表参数规范如下所示:

表1 Flink流式读Hudi表参数规范

参数名称

是否必填

参数描述

示例

Connector

必填

读取表类型。

hudi

Path

必填

表存储的路径。

根据实际情况填写

table.type

必填

Hudi表类型,默认值为COPY_ON_WRITE。

MERGE_ON_READ

hoodie.datasource.write.recordkey.field

必填

表的主键。

根据实际填写

write.precombine.field

必填

数据合并字段。

根据实际填写

read.tasks

选填

读Hudi表task并行度,默认值为4。

4

read.streaming.enabled

必填

  • true:开启流式增量模式。
  • false:批量读。

根据实际填写,流读场景下为true

read.streaming.start-commit

选填

指定 ‘yyyyMMddHHmmss’ 格式的起始commit(闭区间),默认从最新commit。

-

hoodie.datasource.write.keygenerator.type

选填

上游表主键生成类型。

COMPLEX

read.streaming.check-interval

选填

流读检测上游新提交的周期,默认值为1分钟。

5(流量大建议使用默认值)

read.end-commit

选填

  • Stream增量消费,通过参数read.streaming.start-commit指定起始消费位置;
  • Batch增量消费,通过参数read.streaming.start-commit指定起始消费位置,通过参数read.end-commit指定结束消费位置(闭区间),即包含起始、结束的commit。默认到最新commit。

-

changelog.enabled

选填

是否写入changelog消息。默认值为false,CDC场景填写为true。

false