更新时间:2024-10-24 GMT+08:00

配置Kafka/DMS Kafka源端参数

作业中源连接为Kafka连接DMS Kafka连接时,源端作业参数如表1所示。

表1 Kafka作为源端时的作业参数

参数类型

参数

说明

取值样例

基本参数

Topics

支持单个或多个topic。

est1,est2

数据格式

解析数据时使用的格式:

  • 二进制格式:适用于文件迁移场景,不解析数据内容原样传输。
  • CSV格式:以CSV格式解析源数据。
  • JSON:以JSON格式解析源数据。
  • CDC(DRS):以DRS格式解析源数据。
  • CDC(JSON):以JSON格式解析源数据。
  • CDC(DRS_AVRO):以DRS_AVRO格式解析源数据。
  • CDC(DRS_JSON):以DRS_JSON格式解析源数据。

二进制格式

偏移量参数

从Kafka拉取数据时的初始偏移量:

  • 最新:最大偏移量,即拉取最新的数据。
  • 最早:最小偏移量,即拉取最早的数据。
  • 已提交:拉取已提交的数据。
  • 时间范围:拉取时间范围内的数据。

最新

抽取数据最大运行时间

持续拉取数据时间。如天调度作业,根据每天topic产生的数据量,配置足够的拉取时间。单位:分钟。

60

等待时间

当配置为60时,如果消费者60s内从Kafka拉取数据返回一直为空(一般是已经读完主题中的全部数据,也可能是网络或者Kafka集群可用性原因),则立即停止任务,否则持续重试读取数据。单位:秒。

60

消费组ID

用户指定消费组ID。

如果是从DMS Kafka导出数据,专享版请任意输入,标准版请输入有效的消费组ID。

sumer-group

开始时间(>=)

“偏移量参数”选择为“时间范围”时配置。拉取数据的开始时间,包含设置时间点的数据。

2020-12-20 12:00:00

结束时间(<)

“偏移量参数”选择为“时间范围”时配置。拉取数据的结束时间,不包含设置时间点的数据。

2020-12-20 20:00:00

字段分隔符

“数据格式”选择为“CSV格式”时配置。默认为空格,使用Tab键作为分隔符请输入“\t”

,

记录分隔符

“数据格式”选择为“CSV格式”“JSON”时配置。默认为空格,使用Tab键作为分隔符请输入“\t”

,

高级参数

使用配置文件

“数据格式”选择为“CDC场景”时配置,用于配置OBS文件。

OBS链接

选择OBS连接器信息。

obs_link

OBS桶

选择OBS桶。

obs_test

配置文件

选择OBS的配置文件。

/obs/config.csv

最大消息数/poll

可选参数,每次向Kafka请求数据限制最大请求记录数。

100

最大时间间隔/poll

可选参数,向Kafka请求数据的最大时间间隔。

100

通知Topic

发送通知数据到通知Topic中。在CDC场景中,通知的内容是记录生成文件列表的文件名。

notice