更新时间:2024-10-18 GMT+08:00

配置ElasticSearch源端参数

表1 ElasticSearch作为源端时的作业参数

参数类型

参数名

说明

是否必须填

取值样例

基本参数

索引

类似关系数据库的schema或数据库名称,整库迁移多索引以逗号分隔。

支持输入索引别名。

支持输入通配符表达式(*)。如果选择了多个索引,索引的结构必须一致。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。

index_sample

类型

类似关系数据库的schema或数据库名称,整库迁移多索引以逗号分隔。

支持输入索引别名。

支持输入通配符表达式(*)。如果选择了多个索引,索引的结构必须一致。

type_example

高级属性

拆分nested类型字段

是否将nested字段的json内容拆分,如 a:{ b:{ c:1, d:{ e:2, f:3 } } } 将拆成三个字段 [a.b.c], [a.b.d.e], [a.b.d.f]。

过滤条件

对源数据进行过滤,使用ES查询的参数q语法。

last_name:Smith

抽取元字段

是否抽取索引的元字段,目前只支持(_index、_type、_id、_score)。

例如:_index、_type、_id、_score。

_index

分页大小

分页大小。

1000

ScrollId超时时间配置

ScrollId超时时间配置,默认5分钟。

5

重试次数

单次请求失败重试次数。最大限制重试次数10次。

3