更新时间:2024-08-05 GMT+08:00

配置MRS Hudi目的端参数

作业中目的连接为MRS Hudi连接时,目的端作业参数如表1所示。

表1 MRS Hudi作为目的端时的作业参数

通用配置

配置项

配置说明

推荐配置

目的连接名称

选择已配置的MRS Hudi连接。

hudi_to_cdm

数据库名称

输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。

dbadmin

表名

单击输入框后面的按钮可进入表的选择界面。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。

cdm

自动创表

是否自动创建Hudi表。

  • 不自动创建:不自动建表。
  • 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。

不自动创表

导入前清空数据

选择目的端表中数据的处理方式:

  • 是:任务启动前会清除目标表中数据。
  • 否:导入前不清空目标表中的数据,如果选“否”且表中有数据,则数据会追加到已有的表中。

全量模式写Hoodie

选择写Hoodie模式,默认选“是”表示全量模式,“否”表示微批模式。

  • 全量模式为异步分片写入Hoodie,适用于一次全量写入场景。
  • 微批模式为异步分批写入Hoodie,适用于对入库时间SLA要求较为严格的场景,以及对资源消耗较小,对MOR表存储类型在线进行压缩的场景。
说明:

运行-失败重试期间不允许修改此模式。

批次数据大小

“全量模式写Hoodie”设置为“否”时,使用微批模式呈现此参数。

用于设置单个批次写Hoodie的数据行数,默认100000行。

100000

使用入库时间字段

将一个字段标记为入库时间字段,自动建表时将此字段自动加到建表语句中,写入Hudi时将把此字段的值替换为当前时间,不自动建表时选择已经存在的入库时间字段。

入库时间字段名称

“使用入库时间字段”设置为“是”时,呈现此参数。

用于记录写入Hudi的时间。

说明:
  • 对于已存在目的端表中带有入库时间字段的,可以直接使用已有的timestamp类型字段。
  • 对于自动建表的场景,该字段会被拼接到建表语句中,类型为timestamp,该字段名称不能与源端的字段有重复(包括自定义字段)。

cdc_last_update_date

Hudi建表配置

Location

存储在OBS或HDFS上数据库表的文件路径。

-

Hudi表类型

Hudi表存储类型。

  • MOR表:数据先写入avro格式的日志文件,读取时合并到parquet文件。
  • COW表:数据直接写入parquet文件。

MOR

Hudi表主键

对Hudi建表设置主键,多个值以逗号隔开。

-

Hudi表生成器类

主键生成类型,实现org.apache.hudi.keygen.KeyGenerator从传入记录中提取键值。

-

Hudi表预聚合键

对Hudi建表设置预聚合键,当两个记录拥有相同的主键时,保留precombine字段值较大的记录。

说明:

如果没有时间字段,可以设置和主键一样的字段,当遇到主键冲突时,保留最新的记录。

ts

Hudi表分区字段

对Hudi建表设置分区字段,多个值以逗号隔开。

-

Hudi表压缩策略(是否开启写入压缩)

在线进行压缩,仅对MOR表生效。

Hudi表清除策略(保留提交数)

清除时保留的提交数。

1

Hudi表归档策略(最小保留提交数)

归档时保留的最小提交数。

1

Hudi表归档策略(最大保留提交数)

归档时保留的最大提交数。

100

Hudi表配置

对Hudi建表设置自定义参数属性,此处填入的参数将会在options中生效。例如:主键、combineKey、索引。

-