DataArts Studio数据集成(实时作业)告警最佳实践
实时数据迁移对数据集成的实时作业在时效性和稳定性方面有较高要求。由于数据源的性能瓶颈或业务量变化,可能会导致作业时延增加,甚至出现作业异常。常见的异常作业及其诱因包括:
- 作业异常终止:可能由数据源集群重启、发现脏数据或其它可能导致作业失败的业务变化引起。
- 作业时延持续上升:可能由源端数据量激增、源端或目标端性能瓶颈,或实时作业资源不足引起。
- 作业反压持续高位:可能由目标端写入性能不足或源端数据量大引起。
为了持续跟踪作业状态,及时对异常作业进行调优或恢复操作,建议配置各类监控指标告警、时延/异常作业告警,以延长处理问题的时间窗口。具体措施包括:
- 配置作业失败告警:通过设置作业失败告警,可以在作业失败时及时通知运维管理人员,减少故障升级的风险。
- 配置作业监控指标异常告警:通过设置作业监控指标告警,可以提前发现作业运行中的潜在风险,及时调整作业或业务,避免出现大时延。
配置作业失败告警
您可以通过“通知配置”为单个数据集成实时作业或所有数据集成实时作业开启“运行异常/失败”告警。本章节以批量作业配置为例,为您介绍如何配置作业失败告警。
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
- 在数据开发主界面的左侧导航栏,选择 。
- 在“通知管理”页签,单击“通知配置”,弹出“通知配置”页面。
图1 通知配置
- 配置对应参数。
- 单击“确定”,完成配置,可以在通知管理界面看到已配置完成的规则。
图3 配置完成的规则
当作业运行状态由“运行中”转入“异常”或“失败”时,异常告警信息会发送的指定主题关联的通信软件上。
配置作业监控指标异常告警
数据集成实时作业支持自动上报作业监控指标到CES服务(云监控服务),查看监控指标详情请参见配置实时集成作业。
用户可以同步在CES服务下为数据集成实时作业配置异常监控指标告警,配置方式参考本章节。配置过程中,如果对CES服务功能有任何疑惑,详情请参见CES告警。
- 在云监控服务依次创建通知对象、通知组。
- 创建告警规则。
在云监控服务管理控制台,单击“告警 > 告警规则”,进入告警规则界面,在页面右上角单击“创建告警规则”,用户按需配置告警规则参数。
- 名称:根据实际情况填写。
- 告警类型:指标。
- 云产品:数据治理中心-DataArts Studio作业。
- 资源层级:云产品。
- 监控范围:即所需监控的作业名,可以选择全部资源,即所有的数据集成实时作业,也可以指定资源对重点作业关注。此时我们选择指定资源。
- 触发规则:可以使用已有告警模板,也可以自定义创建规则。数据集成实时作业推荐的常见告警规则如下表。
表1 告警触发规则 分类
名称
级别
说明
作业异常终止
源库WAL抽取时延
次要
原始值环比上升0%且持续180个周期则告警。
频率:每3小时告警一次。
作业内存使用率
重要
原始值环比下降0%且持续90个周期则告警。
每1小时告警一次。
作业时延持续上升
源库WAL抽取时延
紧急
原始值>=86,400,000ms且持续3个周期则告警。
频率:每1小时告警一次。
作业反压持续高位
监控周期5分钟 作业内存使用率
重要
平均值>90%且持续4个周期则告警。
频率:每1小时告警一次。
监控周期5分钟 作业CPU使用率
重要
平均值>90%且持续4个周期则告警。
频率:每1小时告警一次。
监控周期1小时 作业最大算子反压
次要
最小值>=100且持续2个周期则告警。
频率:每3小时告警一次。
网络不稳定
说明:网络抖动、数据源集群压力等导致的作业内部自动重试,建议与其他告警规则分开,单独配置告警规则。
任务重试次数
重要
原始值环比上升1%且持续1个周期 则告警。
频率:只告警一次。
图6 常见告警规则配置效果图7 单独为任务重试配置告警规则的配置效果 - 发送通知:通知组,选择之前创建好的通知组即可。
- 其它参数根据实际情况配置即可。
配置完成后,单击“立即创建”即可完成告警规则的创建,创建完成后,可以在告警规则界面下看到已创建的规则。
图8 已创建的规则当被监控作业的监控指标波动情况满足告警规则中配置的告警策略时,系统会自动向通知组发送异常告警。