DataArts Studio数据开发作业告警最佳实践
DataArts Studio数据开发作为大数据调度平台,如果每日频繁调度大量的大数据作业,可能会遇到如下痛点:
- 作业失败无感知:大数据的离线作业大部分会在凌晨执行,当作业失败时,用户无法及时得知并处理。
- 作业补数窗口期较短:上游作业失败重跑过多导致下游核心业务执行时间超过基线,导致影响业务时发现时间太晚,无法及时执行补救措施。
为了解决这些痛点,您可以通过配置各类作业告警,及时发现调度运行问题,提高处理问题的窗口期。
- 配置作业节点失败重试及配置作业失败告警:通过配置作业节点失败重试及失败告警,尽量减少在集群压力峰值时的作业无法正常运行的情况,即使发生失败也可以及时通知到运维管理人员解决,减少故障升级情况。
- 配置作业超时告警:通过配置作业超时告警,可以提前发现作业运行的潜在风险问题,判定当天是否能按基线生成业务侧所需要的数据,提高容错窗口时间,降低故障时间。
前提条件
已完成数据开发作业的开发和调度配置。
配置作业节点失败重试
您可以通过关键业务作业中的节点配置,逐一开启节点失败重试;也可以通过批量作业配置,统一开启各作业中的节点失败重启。本章节以批量作业配置为例,为您介绍如果配置作业节点失败重试。
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 单击作业目录中的,选择“显示复选框”。
图1 显示作业复选框
- 勾选需要配置失败重试的作业,单击 > 作业配置,进入作业配置窗口。
对于CDM Job作业,建议仅选择文件类的CDM Job作业或启用了导入阶段表的数据类CDM Job作业。未启用导入阶段表的数据类CDM Job作业可能因作业失败重试引起数据重复写入,导致迁移前后的数据不一致。
图2 作业配置菜单
- 在作业配置窗口中,配置失败重试策略。
- 失败重试:选择“是”,开启所选择作业中所有节点的失败重试功能。
- 超时重试:根据实际需要选择,如果作业节点配置了超时时间,则该节点执行超时后,系统支持重试。
- 最大重试次数:根据实际需要选择,过多重试可能会导致下游作业运行时间被压缩。
- 重试间隔时间(秒):根据实际需要选择,过大重试间隔时间可能会导致下游作业运行时间被压缩。
图3 配置失败重试策略
- 单击“确定”,完成配置
配置作业失败告警
您可以在通知管理页面,为单个作业或所有作业开启失败告警。本章节以批量作业配置为例,为您介绍如果配置作业失败告警。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 在页面右侧的“通知管理”页签,单击“通知配置”,弹出“通知配置”页面,在页面中配置作业失败重试告警。
- 作业范围:根据实际需要选择,推荐选择“所有作业”,在当前已有的作业和后续新创建的作业运行异常/失败时都会发送通知。
- 通知类型:选择“运行异常/失败”,当作业的状态为“运行异常”或“失败”时,发送通知。
另外可以设置作业运行异常或者失败后、在作业未修复前,告警通知的“最大通知次数”和“最小通知间隔(分钟)”。
最大通知次数可设置为1~50。默认为1时,最小通知间隔不显示。
最小通知间隔可设置为5~60。
- 通知方式:根据实际需要选择,推荐选择“按主题”通知。
- 通知管理功能是通过消息通知服务SMN来发送消息,消息通知服务的使用可能会产生费用,具体请咨询消息通知服务。
- 一个作业支持配置多个消息主题,当作业运行成功或失败,可同时向多个订阅了消息主题的终端发送通知。
- 选择主题:选择通知的SMN消息主题。如果缺少合适的主题,则可以单击“查看主题”,进入消息通知服务(SMN)界面创建消息主题信息。
当前仅支持“短信”、“邮件”、“HTTP”这三种协议的订阅终端订阅主题。
- 开关:是否开启通知,默认开启。
图4 配置通知
- 单击“确定”,为作业配置失败告警通知。
配置作业超时告警
作业超时告警是通过为作业配置实例超时时间实现的,您需要确保已参考配置作业失败告警,为作业设置了“运行异常/失败”类型通知。作业实例超时时间只能单个作业配置,配置完成后当作业运行实例超时,则将触发异常通知。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 在作业目录中,双击作业名称,进入作业开发页面。
- 在作业开发页面,单击画布右侧“作业基本信息”页签,展开配置页面,配置作业实例超时时间。
- 实例超时时间:根据实际需要配置作业实例的超时时间,设置为0或不配置时,该配置项不生效。当您参考配置作业失败告警作业设置了异常通知,如果作业实例执行时间超过超时时间,则将触发异常通知,作业不会中断,继续运行。
- 实例超时是否忽略等待时间:根据实际需要配置实例运行时等待时间是否会被计入超时时间。
图5 配置实例超时时间
- 配置完成后,单击“提交”,完成作业配置。