文档首页> 数据治理中心 DataArts Studio> 最佳实践> DataArts Studio数据开发作业告警最佳实践
更新时间:2024-05-31 GMT+08:00
分享

DataArts Studio数据开发作业告警最佳实践

DataArts Studio数据开发作为大数据调度平台,如果每日频繁调度大量的大数据作业,可能会遇到如下痛点:

  • 作业失败无感知:大数据的离线作业大部分会在凌晨执行,当作业失败时,用户无法及时得知并处理。
  • 作业补数窗口期较短:上游作业失败重跑过多导致下游核心业务执行时间超过基线,导致影响业务时发现时间太晚,无法及时执行补救措施。

为了解决这些痛点,您可以通过配置各类作业告警,及时发现调度运行问题,提高处理问题的窗口期。

  • 配置作业节点失败重试配置作业失败告警:通过配置作业节点失败重试及失败告警,尽量减少在集群压力峰值时的作业无法正常运行的情况,即使发生失败也可以及时通知到运维管理人员解决,减少故障升级情况。
  • 配置作业超时告警:通过配置作业超时告警,可以提前发现作业运行的潜在风险问题,判定当天是否能按基线生成业务侧所需要的数据,提高容错窗口时间,降低故障时间。

前提条件

已完成数据开发作业的开发和调度配置。

配置作业节点失败重试

您可以通过关键业务作业中的节点配置,逐一开启节点失败重试;也可以通过批量作业配置,统一开启各作业中的节点失败重启。本章节以批量作业配置为例,为您介绍如果配置作业节点失败重试。

  1. 参考访问DataArts Studio实例控制台登录DataArts Studio管理控制台。
  2. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  3. 在数据开发主界面的左侧导航栏,选择数据开发 > 作业开发
  4. 单击作业目录中的,选择“显示复选框”
    图1 显示作业复选框

  5. 勾选需要配置失败重试的作业,单击 > 作业配置,进入作业配置窗口。

    对于CDM Job作业,建议仅选择文件类的CDM Job作业或启用了导入阶段表的数据类CDM Job作业。未启用导入阶段表的数据类CDM Job作业可能因作业失败重试引起数据重复写入,导致迁移前后的数据不一致。

    图2 作业配置菜单

  6. 在作业配置窗口中,配置失败重试策略。
    • 失败重试:选择“是”,开启所选择作业中所有节点的失败重试功能。
    • 超时重试:根据实际需要选择,如果作业节点配置了超时时间,则该节点执行超时后,系统支持重试。
    • 最大重试次数:根据实际需要选择,过多重试可能会导致下游作业运行时间被压缩。
    • 重试间隔时间(秒):根据实际需要选择,过大重试间隔时间可能会导致下游作业运行时间被压缩。
    图3 配置失败重试策略

  7. 单击“确定”,完成配置

配置作业失败告警

您可以在通知管理页面,为单个作业或所有作业开启失败告警。本章节以批量作业配置为例,为您介绍如果配置作业失败告警。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  2. 在数据开发主界面的左侧导航栏,选择运维调度 > 通知管理
  3. 在页面右侧的“通知管理”页签,单击“通知配置”,弹出“通知配置”页面,在页面中配置作业失败重试告警。
    • 作业范围:根据实际需要选择,推荐选择“所有作业”,在当前已有的作业和后续新创建的作业运行异常/失败时都会发送通知。
    • 通知类型:选择“运行异常/失败”,当作业的状态为“运行异常”“失败”时,发送通知。

      另外可以设置作业运行异常或者失败后、在作业未修复前,告警通知的“最大通知次数”和“最小通知间隔(分钟)”。

    • 通知方式:根据实际需要选择,推荐选择“按主题”通知。
      • 通知管理功能是通过消息通知服务SMN来发送消息,消息通知服务的使用可能会产生费用,具体请咨询消息通知服务。
      • 一个作业支持配置多个消息主题,当作业运行成功或失败,可同时向多个订阅了消息主题的终端发送通知。
    • 选择主题:选择通知的SMN消息主题。如果缺少合适的主题,则可以单击“查看主题”,进入消息通知服务(SMN)界面创建消息主题信息。

      当前仅支持“短信”、“邮件”、“HTTP”这三种协议的订阅终端订阅主题。

    • 开关:是否开启通知,默认开启。
    图4 配置通知

  4. 单击“确定”,为作业配置失败告警通知。

配置作业超时告警

作业超时告警是通过为作业配置实例超时时间实现的,您需要确保已参考配置作业失败告警,为作业设置了“运行异常/失败”类型通知。作业实例超时时间只能单个作业配置,配置完成后当作业运行实例超时,则将触发异常通知。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  2. 在数据开发主界面的左侧导航栏,选择数据开发 > 作业开发
  3. 在作业目录中,双击作业名称,进入作业开发页面。
  4. 在作业开发页面,单击画布右侧“作业基本信息”页签,展开配置页面,配置作业实例超时时间。
    • 实例超时时间:根据实际需要配置作业实例的超时时间,设置为0或不配置时,该配置项不生效。当您参考配置作业失败告警作业设置了异常通知,如果作业实例执行时间超过超时时间,则将触发异常通知,作业不会中断,继续运行。
    • 实例超时是否忽略等待时间:根据实际需要配置实例运行时等待时间是否会被计入超时时间。
      图5 配置实例超时时间

  5. 配置完成后,单击“提交”,完成作业配置。
分享:

    相关文档

    相关产品