告警规则简介
云监控服务支持灵活地创建告警规则。您既可以根据实际需要对某个特定的监控指标或事件设置自定义告警规则,同时也支持使用告警模板为多个资源或者云服务批量创建告警规则。
在您使用告警模板创建告警规则之前,云监控服务已经根据各个云服务的应用属性以及云监控服务多年的开发、维护经验,为各个云服务量身定做了默认使用的告警模板,供您选择使用。同时云监控服务为用户提供了自定义创建告警模板的功能,用户可以选择在默认模板推荐的监控指标或事件上进行修改,同样也支持自定义添加告警指标完成自定义告警模板的创建。
通过在告警规则中开启消息通知服务,当云服务的状态变化触发告警规则设置的阈值时,系统通过短信、邮件、语音通知、HTTP、HTTPS、FunctionGraph(函数)、FunctionGraph(工作流)、企业微信、钉钉、飞书或Welink等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。
| 告警类型 | 适用场景 |
|---|---|
| 指标 | 云监控服务可以收集云服务的相关指标数据,例如:CPU使用率、内存使用率等。通过监控这些指标来跟踪对应云服务状态。 您可以为云服务的核心监控指标设置告警规则和通知。当监控指标触发设定的阈值时,云监控服务自动发送告警通知,帮助您实时得知异常监控数据,并快速处理。 |
| 事件 | 事件是指云服务资源产生的关键操作或资源运行状态,例如:重启虚拟机。 您可以针对业务中的各类重要事件或对云资源的操作事件设置事件告警规则。当指定事件发生时,云监控服务自动发送告警通知,帮助您实时得知云资源的异常状态,并及时处理异常情况。 |
| 广域网 | 当用户的业务分布在多个不同的区域,可以通过广域网质量监控,模拟真实用户对远端服务器的访问,从而探测不同区域间的网络连通性以及网络质量情况。例如:连接时间平均值,可用率等。 若您需要实时关注网络运行的异常情况,可以为广域网质量监控任务创建告警规则,当网络出现异常(例如:HTTP响应时间平均值大于3s),云监控服务自动发送告警通知,帮助实时识别和解决网络问题,提高网络服务的质量和稳定性。 |
| 站点 | 站点监控的探测点和探测能力不再演进,当前只支持查看历史创建的站点监控任务和告警规则。如果需要探测远端服务器的可用性、连通性等问题,请使用广域网质量监控。 |
使用须知
在告警配置业务中,随着告警规则数量和指标数据量的快速增长,告警引擎的计算负载显著增加,导致告警通知量不断上升。特别是在大客户的业务异常波动或恶意攻击行为下,容易引发整条告警链路的积压甚至中断。当前系统缺乏有效的风险识别、防护与快速恢复机制,故障恢复时间较长,易导致事件升级。为解决这一问题,系统引入了过载防护能力,包括智能监控租户粒度的告警量,自动发现告警量偏离历史基线的异常;快速定位过载源头,如特定云服务;对过载源头进行限流或停用,以及对积压队列进行快速清空和恢复。通过这些措施,系统能够在3分钟内发现过载,5分钟内完成过载溯源,并在10分钟内实现过载恢复,从而提升系统的过载防护能力和应对异常场景的韧性。
针对因告警规则配置不当而导致告警频繁触发的情况,云监控服务将对其进行限流或停用。
- 当用户设定的资源监控范围广泛且告警策略的阈值设置不当,会导致告警频繁触发。
- 用户创建了大量告警规则,监控的资源对象相同,并且对同一指标配置了告警,导致告警频繁触发。