作业开发
作业是指将SQL脚本或者数据集成、数据质量作业等进行编排并进行周期性的调度。
- 脚本作业配置
为了精细化管理和便于运维,ETL作业配置规则如下:
- 按逻辑数据实体创建调度作业画布。
业务指标用到的逻辑数据实体,将每个逻辑数据实体放在一个画布中,包括ODS层、DWI层、DWR层基础数据,然后按照ODS层作业 > DWI层作业 > DWR层基础数据作业顺序排列。
业务指标未用到的逻辑数据实体,将5个逻辑数据实体放在一个画布中,包括ODS层、DWI层,然后按照ODS层作业 > DWI层作业顺序排列,注意使用Dummy空算子进行作业间的关联。
每个作业使用作业开发算子,每个算子关联对应的ETL脚本。
每个开发算子的失败策略为“终止后续节点执行计划”
建议每个画布中的作业算子不超过20个。
- 按事实表创建调度作业画布
每个作业使用作业开发算子,每个算子关联对应的ETL脚本
每个开发算子的失败策略为“终止后续节点执行计划”
建议每个画布中的作业算子不超过20个
- 按质量作业创建调度作业画布
质量作业普遍执行耗时比较长,为了不影响整体的作业,故单独创建质量作业。
将20个质量作业放在一个画布上,使用Dummy空算子进行作业间的关联。
每个作业使用作业质量算子,每个算子关联对应的质量作业。
建议每个画布中的作业算子不超过20个。
- 按逻辑数据实体创建调度作业画布。
- 作业调度配置
- 单击画布右侧“调度配置”,选择周期调度,并单击“执行调度”,调度会根据配置的调度时间定时调度。
图1 调度
逻辑数据实体作业调度配置
事实表作业调度配置
事实表作业需配置依赖作业
失败策略为“挂起”
质量作业调度配置
质量作业需配置依赖作业
失败策略为“终止执行”