实例监控
作业每次运行,都会对应产生一次作业实例记录。在数据开发模块控制台的左侧导航栏,选择 实例监控列表页面,用户可以在该页面中查看作业的实例信息,并根据需要对实例进行更多操作。
,进入实例监控支持从“作业名称”、“创建人”、“责任人”、“CDM作业”、“节点类型”和“作业标签”等维度搜索实例。其中按照“CDM作业”搜索,是从节点的维度搜索,搜索包含该节点的作业实例列表。同时,支持通过“运行状态”和“调度方式”进行筛选作业实例。
作业实例操作
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 当前支持批量停止、重跑、继续执行、强制成功多个实例,使用说明参见表1。
其中,批量重跑多个实例时,重跑的顺序如下:
- 如果作业不依赖上一调度周期,多个实例并行重跑。
- 如果作业自依赖,多个实例串行重跑,以上一调度周期中实例执行完成的先后顺序为准,先执行完成的先重跑。
- 在实例列表中,提供如表1所示的操作。
表1 实例监控操作 操作项
说明
根据“作业名称”、“创建人”或“责任人”搜索作业
如果勾选了“作业名称”前的“精确搜索”,可支持作业名称的精确匹配搜索。
如果未勾选“作业名称”前的“精确搜索”,可支持作业名称的模糊匹配搜索。
根据“CDM作业”、“节点类型”或“作业标签”筛选作业
-
停止
停止运行状态为“待运行”、“运行中”或“运行异常”的实例。
重跑
重新运行状态为“成功”或“取消”的实例。
详细操作请参见重跑作业实例。
说明:- 手动调度的作业任务不支持重跑。
- 企业模式下,开发者不能对作业实例进行重跑。
手工确认执行场景下,重跑实例时,作业实例运行状态显示为“待确认执行”,可以进行手动确认执行,单击“确认执行”后,作业实例运行状态显示为“等待运行”。
手工重试
对于实例的状态为“运行异常”时,支持批量进行手工重试。
继续执行
对于实例的状态为“运行异常”时,支持批量操作,继续运行实例中的后续节点。
强制成功
对于实例的状态为“运行异常”、“取消”、“失败”时,可以批量操作,将运行状态改为“成功”,实例状态显示为“强制成功”。
确认执行
对于实例的状态为“待确认执行”时,支持批量进行手工确认执行。
强制解除依赖执行
可以对有依赖关系的作业实例批量选中进行强制解除依赖执行。
更多 > 手工重试
对于实例的状态为“运行异常”时,支持进行手工重试。
更多 > 查看等待作业实例
实例的状态为“等待运行”时,支持查看等待的作业实例。单击“操作 > 去除依赖”可以去除对上游单个实例的依赖关系。
更多 > 确认执行
对于实例的状态为“待确认执行”时,支持进行手工确认执行。
更多 > 继续执行
实例的状态为“运行异常”时,支持继续运行实例中的后续节点。
说明:只有节点的 设置为“挂起当前作业执行计划”时,才可以执行该操作。
更多 > 强制成功
强制将状态为“运行异常”、“取消”、“失败”的实例变更为“成功”状态,当前实例状态显示为“强制成功”。
更多 > 强制解除依赖执行
可以对有依赖关系的作业实例进行强制解除依赖执行。
更多 > 查看
跳转至作业开发页面,查看作业信息。
更多 > 历史性能
可以查看作业实例监控的历史性能折线图。
更多 > 查看重跑历史
可以查看作业实例重跑的历史记录。
当重跑次数大于0时,才能查看作业实例重跑历史记录。
更多 > 强制优先执行
可以对作业实例进行强制优先执行。
DAG
弹出DAG图,便于直观查看作业实例之间的依赖关系,并且支持在DAG图上进行运维操作。
详细操作请参见查看DAG图。
全量导出
单击“全量导出”,进入到“导出全量数据”页面,单击“确认”。导出完成后,请到下载中心查看导出的内容。
如果没有配置默认存储路径,单击“批量导出”后,配置存储路径,可以将该存储路径设为OBS默认地址。
当前导出数据量最大为30M,超过30M系统会自动截断。
导出的作业实例与作业节点存在对应关系。目前不支持通过勾选作业名称导出所勾选的数据,可以通过筛选条件选择需要导出的数据。
- 单击实例前方的,显示该实例所有节点的运行记录。
- 在节点的“操作”列,提供如表2所示的操作。
表2 操作(节点) 操作项
说明
查看日志
查看节点的日志信息。
进行作业手动测试运行时,作业测试运行日志查看有权限管控,比如,用户A进行作业测试运行后,可以在“实例监控”页面查看测试运行日志,不允许用户B查看该测试运行日志。
手工重试
节点的状态为“失败”时,支持重新运行节点。
节点的状态为“运行异常”时,支持进行手工重试。
说明:只有节点的 设置为“挂起当前作业执行计划”时,才可以执行该操作。
强制成功
节点的状态为“失败”时,支持将该节点强制变更为“成功”状态,且实例监控中作业实例的状态显示为“强制成功”。
说明:只有节点的 设置为“挂起当前作业执行计划”时,才可以执行该操作。
更多 > 跳过
节点的状态为“待运行”或“已暂停节点”时,支持跳过该节点。
说明:若实例为单节点实例,不支持跳过操作。为多节点实例支持跳过操作。
更多 > 暂停
作业的实例状态是运行中,节点的状态是等待运行的时候,支持暂停该节点,该暂停节点的后续节点将会被阻塞。
更多 > 恢复
节点的状态为“已暂停”时,支持恢复运行该节点。
更多 > 历史性能
可以查看作业节点的历史性能折线图。
重跑作业实例
企业模式下,开发者不能对作业实例进行重跑。
您可以对运行成功或失败的作业实例设置重跑,配置重跑开始位置。
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 在作业所在的“操作”列,单击“重跑”设置重跑当前作业实例;或单击作业名称左边的复选框,再选择页面上方的“重跑”按钮可以批量设置多个作业的实例重跑。
图1 设置单个作业重跑
图2 批量设置作业重跑
批量设置多个作业实例重跑时,仅需要配置重跑开始位置、使用的作业参数、是否忽略OBS监听等参数。
表3 参数说明 参数
说明
重跑类型
选择需要重跑的实例。
- 重跑当前实例
- 重跑当前作业及其上下游作业实例
开始时间
仅当“重跑类型”选择“重跑当前作业及其上下游作业实例”时,才需要配置。
设置好开始时间和结束时间,系统会重跑所设置的时间段内的作业实例。
说明:如果所选的时间段内没有可以重跑的作业实例,系统会报错“Job xxx have no instances to rerun”。
重跑作业实例列表
仅当“重跑类型”选择“重跑当前作业及其上下游作业实例”时,才需要配置。
作业依赖关系视图可设置为“显示当前作业及其直接上下游”或“显示完整依赖图”。
此处系统会展示作业依赖关系视图,支持输入作业名称进行查询。
图3 作业依赖关系视图
选择需要重跑的当前作业及其上下游作业,支持多选。
说明:鼠标放置于作业依赖关系视图右边的按钮上,会显示如下信息:
- 鼠标在依赖关系图中的某节点上悬停,其上游作业会被标记为蓝色,下游作业会被标记为黄色。
- 鼠标按住空白处可自由拖拽以查看完整关系图。
- 鼠标左键单击依赖关系图中的节点即可选中该作业所选时间段内的全部实例,即重跑该作业的所有实例。
图4 重跑所有实例
- 右键单击节点可查看该作业的实例列表,可以在列表中选中部分实例进行重跑,即重跑该作业的部分实例。
图5 重跑部分实例
- 如果还未选中任何作业实例,系统会显示未选中实例。
图6 未选中实例
关于作业依赖关系视图的详细操作,请参考批作业监控:查看作业依赖图。
重跑开始位置
选择作业实例重跑的开始位置。
- 从错误节点开始重跑:作业实例执行失败时,从实例执行失败的错误节点开始重跑。
- 从第一个节点开始重跑:从作业实例的第一个节点开始重跑。
- 从指定的节点开始重跑:从作业实例中指定的节点开始重跑。仅当“重跑类型”选择“重跑当前实例”时有此选项。
说明:以下两种情况,系统运行会从第一个节点开始重跑。
- 如果作业中节点个数或者名称发生变化,从第一个节点开始重跑。
- 如果重跑成功状态的作业实例,从第一个节点开始重跑。
使用的作业参数
- 使用原有作业参数重跑
- 使用最新提交作业参数重跑
处理并发数
仅当“重跑类型”选择“重跑当前作业及其上下游作业实例”时,才需要配置。
设置作业实例并行处理的数量,输入值不能小于1。默认值为1。
是否忽略OBS监听
系统默认为“是”。
- 是,重跑作业实例场景下,系统会忽略OBS监听。
- 否,重跑作业实例场景下,系统会监听OBS路径。
说明:
若暂未使用该参数,可忽略。
查看DAG图
您可以查看作业实例之间的依赖关系,并且在DAG图上进行运维操作。
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 选择作业名称,在作业的“操作”列,单击“DAG”,系统弹出DAG视图。
图7 DAG视图
DAG视图默认展示当前作业实例及上下游作业实例,并支持如下操作:
- DAG视图右上角表示恢复DAG图初始状态,表示关闭,单击可以关闭。左侧侧边图标可以拖动改变视图宽度。
- 单击可以选中某个作业实例:
图8 选中作业实例
- 选中时,该作业实例及其上下游实例的背景颜色加深显示。
- DAG视图右下角展示该实例的概要信息,且实例名称和实例ID支持直接复制。
- 单击概览信息的“展开详情”打开详情面板,详情面板包含实例属性、作业参数、节点列表、历史实例等信息,支持调整高度并关闭详情面板。
- 单击空白处,即可取消选中效果。
- 右键单击某个作业实例,可以展开该实例上下游的作业实例,并支持进行停止、重跑、继续执行、强制成功、上游分析、编辑作业等实例操作。
图9 操作作业实例
作业实例运行状态
运行状态 |
场景描述 |
---|---|
等待运行 |
如果作业实例依赖的前置作业实例未最终完成(未最终完成的状态包括:未生成实例、等待运行、运行失败),该实例处于等待运行。 |
运行中 |
作业正常运行中。说明前置的依赖作业都已完成,该作业调度时间已到。 |
运行成功 |
作业真正成功执行了业务逻辑,并且最终成功(包含失败重试的成功)。 “运行成功”包括了“成功”、“强制成功”、“忽略失败”三种运行状态。 |
强制成功 |
作业实例处于失败或取消状态时,进行手动执行强制成功。 |
忽略失败成功 |
如下图所示,节点B设置了失败处理策略,当B执行失败了,会跳过B继续执行C,当存在这种节点运行失败,整个作业执行完成了就是忽略失败成功。
图10 失败处理策略-继续执行下一节点
|
运行异常 |
这种运行状态场景较少。如下图所示,节点B设置了失败处理策略,当B执行失败了,作业实例立即挂起,不会继续执行C,作业实例进入异常运行状态。
图11 失败处理策略-挂起当前作业执行计划
|
已暂停 |
这种运行状态场景较少。当某个作业的实例正在运行,测试人员在作业监控界面,手工暂停作业调度。此时,该作业正在运行的实例会进入已暂停状态。 |
已取消 |
|
冻结 |
对于未来时间内尚未生成的作业实例,进行冻结后,该作业实例会进入冻结状态。 |
失败 |
作业执行失败。执行失败的作业,可以查看失败原因,比如作业的哪个节点执行失败。 |