更新时间:2026-03-10 GMT+08:00
分享

配置Doris目的端参数

当作业将数据导入到Doris时,目的端作业参数如表1所示。

表1 Doris作为目的端时的作业参数

参数类型

参数名

说明

取值样例

基本参数

模式或表空间

待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。

schema

表名

写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为(数据开发作业计划启动时间-偏移量),而不是(CDM作业实际启动时间-偏移量)。

table

导入开始前

导入数据前,选择是否清除目的表的数据:
  • 不清除:写入数据前不清除目标表中数据,数据追加写入。
  • 清除全部数据:写入数据前会清除目标表中数据。
  • 清除部分数据:需要配置“where条件”参数,CDM根据条件选择性删除目标表的数据。

清除部分数据

where条件

“导入开始前”参数选择为“清除部分数据”时配置,配置后导入前根据where条件删除目的表的数据。

age > 18 and age <= 60

写入模式

建议使用STREAM_LOAD方式写入数据。

  • STREAM_LOAD: 写入数据使用STREAM_LOAD 导入数据,使用这个方式需要保证 streamLoad 端口开放,并且在连接中配置对应的端口号。
  • JDBC: 使用jdbc 执行sql 写入数据。不建议使用jdbc,这种方式可能存在doris 审计日志的风险。

STREAM_LOAD

stream load 配置参数

“写入模式”参数选择为“STREAM_LOAD”时配置stream load 参数,。

当前配置属于streamLoad 写数据自定义头参数,支持的参数如下:

  • 公共参数:
    • format: 使用的格式,当前支持CSV、JSON格式,csv 格式性能更优,推荐使用。
    • partitions:指定要把数据导入哪些分区。如果不指定该参数,则默认导入到 doris 表所在的所有分区中。 partitions: p1, p2,多个分区使用逗号隔开。
    • strict_mode: 用于指定是否开严格模式。默认值:true。若设置为false, 字段转化失败,将值设置成NULL, 会导致丢数据。
    • timeout: 用于导入作业的超时时间。取值范围:1 ~ 259200。单位:秒。默认值:600。
    • compress_type: doris 使用CSV格式写数据的时候将数据压缩成指定的格式当前支持的格式gz,lz4,none。
  • JSON格式支持的参数:

    strip_outer_array: 用于指定是否裁剪最外层的数组结构,默认值为true。

  • CSV格式支持的参数:
    • line_separator: doris 数据源中行分隔符,csv 格式默认\n。
    • row_delimiter:startRocks行分隔符,csv 格式默认\n。
    • column_separator:字段分隔符,csv 格式默认为\t。

-

高级属性

导入前准备语句

执行任务之前率先执行的SQL语句。目前仅允许执行一条SQL语句。

create temp table

导入后完成语句

执行任务之后执行的SQL语句,目前仅允许执行一条SQL语句。

merge into

loader线程数

每个loader内部启动的线程数,可以提升写入并发数。

对于使用了Unique模型或者聚合函数replace等对插入顺序有要求的情况下,不建议使用并发能力。

并发场景下有如下限制:约束冲突处理策略不支持"replace into"或"on duplicate key update"。

1

相关文档