DataArts Studio数据集成（实时作业）告警最佳实践

实时数据迁移对数据集成的实时作业在时效性和稳定性方面有较高要求。由于数据源的性能瓶颈或业务量变化，可能会导致作业时延增加，甚至出现作业异常。常见的异常作业及其诱因包括：

为了持续跟踪作业状态，及时对异常作业进行调优或恢复操作，建议配置各类监控指标告警、时延/异常作业告警，以延长处理问题的时间窗口。具体措施包括：

您可以通过“通知配置”为单个数据集成实时作业或所有数据集成实时作业开启“运行异常/失败”告警。本章节以批量作业配置为例，为您介绍如何配置作业失败告警。

登录DataArts Studio管理控制台。
详情请参考访问DataArts Studio实例控制台。
在DataArts Studio控制台首页，选择对应工作空间的“数据开发”模块，进入数据开发页面。
在数据开发主界面的左侧导航栏，选择“运维调度 > 通知管理”。
在“通知管理”页签，单击“通知配置”，弹出“通知配置”页面。
图1 通知配置
配置对应参数。
图2 配置通知参数
- 作业范围：批量作业。
- 通知类型：“运行异常/失败”。
- 通知方式：主题。
  用户通过定于SMN主题可以以短信、邮件、语音通知的形式接收到作业失败告警。
  
  SMN主题的创建和订阅方式详情请参见创建主题和订阅主题。
- 其他参数根据实际情况配置即可。
单击“确定”，完成配置，可以在通知管理界面看到已配置完成的规则。
图3 配置完成的规则

当作业运行状态由“运行中”转入“异常”或“失败”时，异常告警信息会发送到指定主题关联的通信软件上。

数据集成实时作业支持自动上报作业监控指标到CES服务（云监控服务），查看监控指标详情请参见配置实时集成作业。

用户可以同步在CES服务下为数据集成实时作业配置异常监控指标告警，配置方式参考本章节。配置过程中，如果对CES服务功能有任何疑惑，详情请参见CES告警。

在云监控服务依次创建通知对象、通知组。
1. 创建通知对象。
  在云监控服务管理控制台，单击“告警 > 告警通知”，进入告警通知界面，在“通知对象”页签，单击“创建通知对象”，用户按需填写对象名称、选择通知渠道。
  
  图4 创建通知对象
  
  图5 配置对象参数
  
  通知对象创建完毕，可以在告警通知 > 通知对象界面查看到已创建的通知对象。
  
  图6 查看已创建的通知对象
2. 创建通知组，并绑定通知对象。
  在告警通知界面，选择“通知组”页签，单击“创建通知组”，用户按需填写组名称、选择通知对象。
  
  图7 创建通知组
  
  通知组创建完毕后，可以在告警通知 > 通知组界面查看到已创建的通知组。

创建通知内容模板（可选）。

实时集成作业告警通知内容支持配置实时集成作业的责任人。

在云监控服务管理控制台，单击“告警 > 告警通知”，进入告警通知界面，在“通知内容模板”页签，单击“创建通知内容模板”，用户按需添加内容选择作业责任人。

图8 创建通知内容模板

图9 配置通知内容参数

创建告警规则。

在云监控服务管理控制台，单击“告警 > 告警规则”，进入告警规则界面，在页面右上角单击“创建告警规则”，用户按需配置告警规则参数。

触发规则：可以使用已有告警模板，也可以自定义创建规则。数据集成实时作业推荐的常见告警规则如下表。

表1 告警触发规则
分类	名称	级别	说明
作业异常终止	源库WAL抽取时延	次要	原始值环比上升0%且持续180个周期则告警。频率：每3小时告警一次。
作业异常终止	作业内存使用率	重要	原始值环比下降0%且持续90个周期则告警。每1小时告警一次。
作业时延持续上升	源库WAL抽取时延	紧急	原始值>=86,400,000ms且持续3个周期则告警。频率：每1小时告警一次。
作业反压持续高位	监控周期5分钟作业内存使用率	重要	平均值>90%且持续4个周期则告警。频率：每1小时告警一次。
	监控周期5分钟作业CPU使用率	重要	平均值>90%且持续4个周期则告警。频率：每1小时告警一次。
	监控周期1小时作业最大算子反压	次要	最小值>=100且持续2个周期则告警。频率：每3小时告警一次。
网络不稳定说明：网络抖动、数据源集群压力等导致的作业内部自动重试，建议与其他告警规则分开，单独配置告警规则。	任务重试次数	重要	原始值环比上升1%且持续1个周期则告警。频率：只告警一次。

图10 常见告警规则配置效果
点击放大

图11 单独为任务重试配置告警规则的配置效果
点击放大