更新时间:2024-12-02 GMT+08:00

配置Doris源端参数

作业中源连接为Doris连接时,源端作业参数如表1所示。

表1 Doris作为源端时的作业参数

参数类型

参数名

说明

取值样例

基本参数

使用SQL语句

可以选择是否使用SQL语句,来进行源端数据抽取。

SQL语句

“使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。

说明:
  • SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。
  • 不支持with语句。
  • 不支持注释 ,比如 "--" ,“/*”。
  • 不支持增删改操作,包括但不限于以下操作:
    • load data
    • delete from
    • alter table
    • create table
    • drop table
    • into outfile
  • 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。

select id,name from sqoop.user;

模式或表空间

待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。

schema

表名

读取数据的目标表名,单击输入框后面的按钮可进入表的选择界面

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为(数据开发作业计划启动时间-偏移量),而不是(CDM作业实际启动时间-偏移量)。

table

高级属性

Where子句

使用SQL语句为否时,可以增加where子句,添加筛选条件。

age > 18 and age <= 60

date类型值是否保留一位精度

date类型值是否保留一位精度。

抽取分区字段

抽取数据时使用该字段进行数据切分, 从而实现并行化抽取。

id

分区字段含有空值

多并发抽取时,若确定分区字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。