更新时间:2022-08-17 GMT+08:00

ETL Job

功能

通过ETL Job节点可以从指定数据源中抽取数据,经过数据准备对数据预处理后,导入到目标数据源。

参数

用户可参考表1表2表3配置ETL Job节点的参数。

表1 属性参数

参数

是否必选

说明

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

ETL配置

单击配置需要转换的源端数据和目的端数据。

当前支持的源端数据为DLI类型、OBS类型和MySQL类型。

  • 当源端数据为DLI类型时,支持的目的端数据类型为DWS、GES、CSS、OBS、DLI。
  • 当源端数据为MySQL类型时,支持的目的端数据类型为MySQL。
  • 当源端数据为OBS类型时,支持的目的端数据类型为DLI、DWS。
须知:
  • DLI到DWS端的数据转换:

    因为数据开发模块调用DWS的集群时,需要走网络代理。所以导入数据到DWS时,需要提前先在数据开发模块中创建DWS的数据连接。

    DLI导入数据到DWS时,DWS的表需要先创建好。

  • DLI到CSS端的数据转换:

    DLI导入数据到CSS集群时,需要在DLI侧提前创建好关联对应CSS集群的跨源连接,请参见《数据湖探索用户指南》

SQL模板

单击“配置”按钮获取SQL模板。

表2 高级参数

参数

是否必选

说明

节点执行的最长时间

设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将不会再重试,直接置为失败状态。

失败重试

节点执行失败后,是否重新执行节点

  • 是:重新执行节点,请配置以下参数。
    • 最大重试次数
    • 重试间隔时间(秒)
  • 否:默认值,不重新执行节点
说明:

如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后将不会再重试,直接置为失败状态。

失败策略

节点执行失败后的操作:

  • 终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。
  • 继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败成功”。
  • 挂起当前作业执行计划:暂停当前作业运行,当前作业实例状态显示为“等待运行”。
  • 终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。

空跑

如果勾选了空跑,该节点不会实际执行,将直接返回成功。

表3 血缘关系

参数

说明

输入

新建

单击“新建”,在“类型”的下拉选项中选择要新建的类型。可以选择DWS,OBS,CSS,HIVE,CUSTOM和DLI类型。

  • DWS
    • 连接名称(必选):单击,在弹出的“连接名称”窗口选择DWS的数据连接。
    • 数据库(必选):单击,在弹出的“数据库”窗口选择DWS的数据库。
    • schema(必选):单击,在弹出的“schema”窗口选择DWS的数据库模式。
    • 表名(必选):单击,在弹出的“表名”窗口选择DWS的数据表。
  • OBS
    • 路径(必选):单击,在弹出的“OBS文件浏览”窗口选择OBS路径。
  • CSS
    • 集群名称(必选):单击,在弹出的“CloudSearch集群”窗口选择CloudSearch集群。
    • 索引名称(必选):输入CSS类型的索引名称。
  • HIVE
    • 连接名称(必选):单击,在弹出的“连接名称”窗口选择HIVE的数据连接。
    • 数据库(必选):单击,在弹出的“数据库”窗口选择HIVE的数据库。
    • 表名(必选):单击,在弹出的“表名”窗口选择HIVE的数据表。
  • CUSTOM
    • 名称(必选):输入CUSTOM类型的名称。
    • 属性(必选):输入CUSTOM类型的属性,可新增不止一条。
  • DLI
    • 连接名称(必选):单击,在弹出的“连接名称”窗口选择DLI的数据连接。
    • 数据库(必选):单击,在弹出的“数据库”窗口选择DLI的数据库。
    • 表名(必选):单击,在弹出的“表名”窗口选择DLI的数据表。

确定

单击“确认”,保存节点输入功能的参数配置。

取消

单击“取消”,取消节点输入功能的参数配置。

编辑

单击,修改节点输入功能的参数配置,修改完成后,请保存。

删除

单击,删除节点输入功能的参数配置。

查看表详情

单击,查看节点输入血缘关系创建数据表的详细信息。

输出

新建

单击“新建”,在“类型”的下拉选项中选择要新建的类型。可以选择DWS,OBS,CSS,HIVE,CUSTOM和DLI类型。

  • DWS
    • 连接名称(必选):单击,在弹出的“连接名称”窗口选择DWS的数据连接。
    • 数据库(必选):单击,在弹出的“数据库”窗口选择DWS的数据库。
    • schema(必选):单击,在弹出的“schema”窗口选择DWS的数据库模式。
    • 表名(必选):单击,在弹出的“表名”窗口选择DWS的数据表。
  • OBS
    • 路径(必选):单击,在弹出的“OBS文件浏览”窗口选择OBS路径。
  • CSS
    • 集群名称(必选):单击,在弹出的“CloudSearch集群”窗口选择CloudSearch集群。
    • 索引名称(必选):输入CSS类型的索引名称。
  • HIVE
    • 连接名称(必选):单击,在弹出的“连接名称”窗口选择HIVE的数据连接。
    • 数据库(必选):单击,在弹出的“数据库”窗口选择HIVE的数据库。
    • 表名(必选):单击,在弹出的“表名”窗口选择HIVE的数据表。
  • CUSTOM
    • 名称(必选):输入CUSTOM类型的名称。
    • 属性(必选):输入CUSTOM类型的属性,可新增不止一条。
  • DLI
    • 连接名称(必选):单击,在弹出的“连接名称”窗口选择DLI的数据连接。
    • 数据库(必选):单击,在弹出的“数据库”窗口选择DLI的数据库。
    • 表名(必选):单击,在弹出的“表名”窗口选择DLI的数据表。

确定

单击“确认”,保存节点输出功能的参数配置。

取消

单击“取消”,取消节点输出功能的参数配置。

编辑

单击,修改节点输出功能的参数配置,修改完成后,请保存。

删除

单击,删除节点输出功能的参数配置。

查看表详情

单击,查看节点输出血缘关系创建数据表的详细信息。