更新时间:2024-08-08 GMT+08:00
分享

配置ElasticSearch目的端参数

表1 Elasticsearch作为目的端时的作业参数

参数类型

参数名

说明

取值样例

基本参数

索引

待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。

index

类型

待写入数据的Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。

说明:

Elasticsearch搜索引擎7.x及以上版本不支持自定义类型,只能使用_doc类型。此处即使自定义也不会生效。

type

操作

操作类型。

  • INDEX:不指定主键,es内部生成id,使得每次写入都是不同id的新增数据文件。
  • CREATE:需要指定主键。如果主键已经存在,写入失败。
  • UPDATE:需要指定主键。如果主键已经存在,覆盖原有数据。
  • UPSERT:需要指定主键。如果主键已经存在,同UPDATE。如果主键不存在,则新建文档写入。

UPSERT

主键取值方式

文档类型为UPSERT,UPDATE或CREATE时支持的主键取值方式。

  • 单主键:业务主键模式,选择主键,将其的值写入id。
  • 联合主键:联合主键模式,多选主键,将其的值用主键分隔符拼接写入id。
  • 无主键:仅操作类型为CREATE时支持,无需指定主键,目的端会自动生成id作为主键写入。

单主键

导入前清空数据

定义当前任务在索引Index已经存在的情况是否需要删除数据。

  • 是:需要删除该索引下的数据。
  • 否:写入数据前保留数据。

主键分隔符

主键取值方式为“联合主键”时,显示主键分隔符配置项,用于将多选的主键用主键分隔符拼接写入id。

_

高级属性

管道ID

需要先在kibana中创建管道ID,这里才可以选择,该参数用于数据传到Elasticsearch后,通过Elasticsearch的数据转换pipeline进行数据格式变换。

pipeline_id

开启路由

开启路由后,支持指定某一列的值作为路由写入Elasticsearch。

说明:

开启路由前建议先建好目的端索引,可提高查询效率。

路由字段

“开启路由”参数选择为“是”时配置,用于配置目的端路由字段。目的端索引存在但是获取不到字段信息时,支持手动填写字段。路由字段允许为空,为空时写入Elasticsearch不指定routing值。

value1

定时创索引

对于持续写入数据到Elasticsearch的流式作业,CDM支持在Elasticsearch中定时创建新索引并写入数据,方便用户后期删除过期的数据。支持按以下周期创建新索引:
  • 每小时:每小时整点创建新索引,新索引的命名格式为“索引名+年+月+日+小时”,例如“index2018121709”
  • 每天:每天零点零分创建新索引,新索引的命名格式为“索引名+年+月+日”,例如“index20181217”
  • 每周:每周周一的零点零分创建新索引,新索引的命名格式为“索引名+年+周”,例如“index201842”
  • 每月:每月一号零点零分创建新索引,新索引的命名格式为“索引名+年+月”,例如“index201812”
  • 不创建:选择此项表示不创建定时索引。

从文件类抽取数据时,必须配置单个抽取(“抽取并发数”参数配置为1),否则该参数无效。

每小时

单行提交次数

配置需要单次提交的大小。

10000

重试次数

单次请求失败重试次数,最大限制重试次数10次。

3

相关文档