配置MRS Hudi目的端参数
作业中目的连接为MRS Hudi连接时,目的端作业参数如表1所示。
通用配置 |
||
---|---|---|
配置项 |
配置说明 |
推荐配置 |
目的连接名称 |
选择已配置的MRS Hudi连接。 |
hudi_to_cdm |
数据库名称 |
输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 |
dbadmin |
表名 |
单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。
说明:
如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 |
cdm |
自动创表 |
是否自动创建Hudi表。
|
不自动创表 |
导入前清空数据 |
选择目的端表中数据的处理方式:
|
否 |
全量模式写Hoodie |
选择写Hoodie模式,默认选“是”表示全量模式,“否”表示微批模式。
说明:
运行-失败重试期间不允许修改此模式。 |
是 |
批次数据大小 |
“全量模式写Hoodie”设置为“否”时,使用微批模式呈现此参数。 用于设置单个批次写Hoodie的数据行数,默认100000行。 |
100000 |
使用入库时间字段 |
将一个字段标记为入库时间字段,自动建表时将此字段自动加到建表语句中,写入Hudi时将把此字段的值替换为当前时间,不自动建表时选择已经存在的入库时间字段。 |
是 |
入库时间字段名称 |
“使用入库时间字段”设置为“是”时,呈现此参数。 用于记录写入Hudi的时间。
说明:
|
cdc_last_update_date |
Hudi建表配置 |
||
Location |
存储在OBS或HDFS上数据库表的文件路径。 |
- |
Hudi表类型 |
Hudi表存储类型。
|
MOR |
Hudi表主键 |
对Hudi建表设置主键,多个值以逗号隔开。 |
- |
Hudi表生成器类 |
主键生成类型,实现org.apache.hudi.keygen.KeyGenerator从传入记录中提取键值。 |
- |
Hudi表预聚合键 |
对Hudi建表设置预聚合键,当两个记录拥有相同的主键时,保留precombine字段值较大的记录。
说明:
如果没有时间字段,可以设置和主键一样的字段,当遇到主键冲突时,保留最新的记录。 |
ts |
Hudi表分区字段 |
对Hudi建表设置分区字段,多个值以逗号隔开。 |
- |
Hudi表压缩策略(是否开启写入压缩) |
在线进行压缩,仅对MOR表生效。 |
是 |
Hudi表清除策略(保留提交数) |
清除时保留的提交数。 |
1 |
Hudi表归档策略(最小保留提交数) |
归档时保留的最小提交数。 |
1 |
Hudi表归档策略(最大保留提交数) |
归档时保留的最大提交数。 |
100 |
Hudi表配置 |
对Hudi建表设置自定义参数属性,此处填入的参数将会在options中生效。例如:主键、combineKey、索引。 |
- |