更新时间:2024-10-18 GMT+08:00

配置Hudi目的端参数

表1 MRS Hudi作为目的端时的作业参数

类别

配置项

配置说明

推荐配置

基本参数

数据库名称

输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。

dbadmin

表名

单击输入框后面的按钮可进入表的选择界面。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。

cdm

自动建表模式

是否自动创建Hudi表。

  • 一键建表:通过自动建表方式自动创建目的端表。
  • 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。

不存在时创建

写入模式

数据写入模式。

  • TRUNCATE+LOAD:TRUNCATE方式会在导入前执行TRUNCATE语句清空填写的分区数据,再进行LOAD写入数据。
  • LOAD:写入前不做任何处理。
  • INSERT_OVERWRITE:对数据进行覆盖写入。

LOAD

分区

分区信息,表为分区表的时候,写数据的时候,可以选择需要写入的分区数据。

例如:year=2020,location=sun。

-

高级属性

入库时间字段

将一个字段标记为入库时间字段,自动建表时将此字段自动加到建表语句中,写入Hudi时将把此字段的值替换为当前时间。所选字段必须为timestamp类型。

-

写入参数

在执行Spark SQL往hudi插入数据前,通过set语法设置参数,从而控制spark的写入行为。

hoodie.combine.before.upsert