更新时间:2024-05-06 GMT+08:00
分享

作业开发

作业是指将SQL脚本或者数据集成、数据质量作业等进行编排并进行周期性的调度。

  1. 脚本作业配置

    为了精细化管理和便于运维,ETL作业配置规则如下:

    • 按逻辑数据实体创建调度作业画布。

      业务指标用到的逻辑数据实体,将每个逻辑数据实体放在一个画布中,包括ODS层、DWI层、DWR层基础数据,然后按照ODS层作业 > DWI层作业 > DWR层基础数据作业顺序排列。

      业务指标未用到的逻辑数据实体,将5个逻辑数据实体放在一个画布中,包括ODS层、DWI层,然后按照ODS层作业 > DWI层作业顺序排列,注意使用Dummy空算子进行作业间的关联。

      每个作业使用作业开发算子,每个算子关联对应的ETL脚本。

      每个开发算子的失败策略为“终止后续节点执行计划”

      建议每个画布中的作业算子不超过20个。

    • 按事实表创建调度作业画布

      按照DWR层事实表作业 > DWR层汇总表作业顺序排列

      每个作业使用作业开发算子,每个算子关联对应的ETL脚本

      每个开发算子的失败策略为“终止后续节点执行计划”

      建议每个画布中的作业算子不超过20个

    • 按质量作业创建调度作业画布

      质量作业普遍执行耗时比较长,为了不影响整体的作业,故单独创建质量作业。

      将20个质量作业放在一个画布上,使用Dummy空算子进行作业间的关联。

      每个作业使用作业质量算子,每个算子关联对应的质量作业。

      建议每个画布中的作业算子不超过20个。

  2. 作业调度配置
  3. 单击画布右侧“调度配置”,选择周期调度,并单击“执行调度”,调度会根据配置的调度时间定时调度。

    图1 调度

    逻辑数据实体作业调度配置

    事实表作业调度配置

    事实表作业需配置依赖作业

    失败策略为“挂起”

    质量作业调度配置

    质量作业需配置依赖作业

    失败策略为“终止执行”

相关文档