阈值告警最佳实践(新版)
该功能对华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域生效。
告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。
创建方式
阈值告警规则的创建方式分为两种:自定义阈值规则和使用模板创建阈值规则。一次创建后,只生成一条规则,无论是一个还是多个资源,均通过同一条规则进行监控。
使用静态阈值模板创建静态阈值规则前,您需先创建一个静态阈值模板。
推荐使用“自定义阈值规则”方式创建。
自定义阈值规则
- 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
- 自定义阈值规则。
- 设置规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
- 设置阈值规则的详细信息。
- 设置“规则类型”为“阈值规则”。
- 选择监控对象。通过以下两种方式选择:
- 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。
- 监控对象最多可添加100条指标数据。
- 选择监控对象时,如果开启了应用到所有开关,将会针对应用或服务下的所有该类型指标创建一条告警规则。例如选择了“CCE / 主机 / 主机 / CPU使用率”指标,开启应用到所有开关,则会为CCE服务下所有主机创建一条告警规则。
- 单击“修改资源对象”可修改已选择的资源对象。
- 命令行输入:提供手动输入和系统自动填充两种输入方式。
- 手动输入:已知指标的名称、IP等相关信息,且对Prometheus格式较了解时,可直接手动输入相关的Prometheus格式命令行。
例如查询主机CPU使用率,可输入如下命令:avg(label_replace(avg_over_time(aom_node_cpu_usage{hostID="81010a40-1682-41c1-9645-f0588ff9c0cf",nodeIP="192.168.1.210",clusterId = '00000000-0000-0000-0000-00000000'}[59999ms]), "__name__","aom_node_cpu_usage","","")) by(__name__,hostID,nodeIP)
如需查看Prometheus格式命令行的详细说明,请将光标移至搜索框后的处,单击“了解更多”。
- 系统自动填充:不确定指标信息或对Prometheus格式不了解时,可采用系统自动填充方式。系统自动填充方式需要从“指标浏览”界面跳转后填充。
具体操作:在左侧导航栏中选择“监控 > 指标浏览”。单击“添加指标查询”,通过“按指标维度添加”或“按资源添加”方式在资源树上选择一个或多个(最多可选12个)关注的指标。选择指标后,在“操作”列中单击,系统自动跳转到阈值规则的创建界面,并自动填充相关指标的Prometheus格式命令行。
- 手动输入:已知指标的名称、IP等相关信息,且对Prometheus格式较了解时,可直接手动输入相关的Prometheus格式命令行。
- 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。
- 设置告警条件。单击“自定义创建”,设置统计周期、连续周期、阈值条件等触发条件参数。具体的参数说明如表1所示。
表1 告警条件填写说明 参数类别
参数名称
参数说明
触发条件
统计周期
指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。
连续周期
连续多少个周期满足阈值条件后,发送阈值告警。
统计方式
指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。
阈值条件
阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
将光标移动至告警条件上方的图表区,会浮动显示当前指标的ID、IP、单位等信息。
告警级别
阈值告警的级别,包括:紧急、重要、次要、提示。
高级设置
告警恢复
监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。
默认只监控一个周期,最多可监控5个周期指标数据。
系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。
图1 设置告警条件
- 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。
- 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
- 直接告警:满足告警条件,直接发送告警。
- 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见告警行动规则。
- 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警恢复”中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。
图2 设置直接告警方式
- 告警降噪:对告警信息自动匹配告警行动规则后再发送告警,防止产生告警风暴。
从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则。
图3 设置告警降噪方式
- 直接告警:满足告警条件,直接发送告警。
- 单击“立即创建”,完成创建。如下图所示,创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。
在展开的列表中,只要某个主机的指标数据满足设置的告警条件时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信或企业微信等方式发送告警通知给指定人员。
图4 创建阈值规则