创建阈值规则
通过阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。
创建方式
阈值规则的创建方式分为两种:自定义阈值规则和使用模板创建阈值规则。一次创建后,只生成一条规则,无论是一个还是多个资源,均通过同一条规则进行监控。使用静态阈值模板创建阈值规则前,您需先创建一个静态阈值模板,操作详见创建静态阈值模板。
注意事项
- 阈值规则的状态(正常、超限阈值、数据不足、停用中)发生变化时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。
- 通过一条阈值规则批量监控多个资源的指标数据时,阈值规则的状态说明如下:
- 某个资源的指标状态为“超限阈值”时,阈值规则的状态显示为“超限阈值”。
- 某个或多个资源的指标状态为“数据不足”或“正常”时,阈值规则的状态均显示为“正常”。
自定义阈值规则
- 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
- 设置阈值规则。
- 设置规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
- 设置规则的详细信息。
- 设置“规则类型”为“阈值规则”。
- 选择监控对象。通过以下两种方式选择:
- 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。
- 监控对象最多可添加100条指标数据。
- 选择监控对象时,如果开启了应用到所有开关,将会针对应用或服务下的所有该类型指标创建一条告警规则。例如选择了“CCE / 主机 / 主机 / CPU使用率”指标,开启应用到所有开关,则会为CCE服务下所有主机创建一条告警规则。
- 单击“修改资源对象”可修改已选择的资源对象。
- 命令行输入:提供手动输入和系统自动填充两种输入方式。
- 手动输入:已知指标的名称、IP等相关信息,且对Prometheus格式较了解时,可直接手动输入相关的Prometheus格式命令行。
例如查询主机CPU使用率,可输入如下命令:avg(label_replace(avg_over_time(aom_node_cpu_usage{hostID="81010a40-1682-41c1-9645-f0588ff9c0cf",nodeIP="192.168.1.210",clusterId = '00000000-0000-0000-0000-00000000'}[59999ms]), "__name__","aom_node_cpu_usage","","")) by(__name__,hostID,nodeIP)
如需查看Prometheus格式命令行的详细说明,请将光标移至搜索框后的处,单击“了解更多”。
- 系统自动填充:不确定指标信息或对Prometheus格式不了解时,可采用系统自动填充方式。系统自动填充方式需要从“指标浏览”界面跳转后填充。
具体操作:在左侧导航栏中选择“监控 > 指标浏览”。单击“添加指标查询”,通过“按指标维度添加”或“按资源添加”方式在资源树上选择一个或多个(最多可选12个)关注的指标。选择指标后,在“操作”列中单击,系统自动跳转到阈值规则的创建界面,并自动填充相关指标的Prometheus格式命令行。
- 手动输入:已知指标的名称、IP等相关信息,且对Prometheus格式较了解时,可直接手动输入相关的Prometheus格式命令行。
- 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。
- 设置告警条件。单击“自定义创建”,设置统计周期、连续周期、阈值条件等触发条件参数。具体的参数说明如表1所示。
表1 告警条件填写说明 参数类别
参数名称
参数说明
触发条件
统计周期
指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。
连续周期
连续多少个周期满足阈值条件后,发送阈值告警。
统计方式
指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。
阈值条件
阈值告警的触发条件,由判断条件(≥、≤、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
将光标移动至告警条件上方的图表区,会浮动显示当前指标的ID、IP、单位等信息。
告警级别
阈值告警的级别,包括:紧急、重要、次要、提示。
高级设置
告警恢复
监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。
默认只监控一个周期,最多可监控5个周期指标数据。
系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。
- 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。详细说明请参见标签和标注。
单击“添加自定义标签”或“添加自定义标注”可添加多条信息。
- 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
- 直接告警:满足告警条件,直接发送告警。
- 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。
- 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警恢复”中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则。
- 直接告警:满足告警条件,直接发送告警。
- 单击“立即创建”,完成创建。创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。
在展开的列表中,只要某个主机的指标数据满足设置的告警条件时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。
使用模板创建阈值规则
使用模板创建阈值规则前,请先创建一个静态阈值模板,操作详见创建静态阈值模板。
- 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
- 设置阈值规则。
- 设置规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
- 设置告警规则的详细信息。
- 设置“规则类型”为“阈值规则”。
- 选择监控对象。使用模板创建阈值规则的场景下,只能通过“按指标维度添加”或“按资源添加”方式选择指标,不支持命令行输入方式选择指标。
- 设置告警条件。单击“从模板导入”,从下拉列表中选择已创建的静态阈值模板,并设置告警恢复和无数据处理等参数。
表2 告警条件填写说明 参数类别
参数名称
参数说明
告警模板
-
选择已创建的静态阈值模板。如果现有的模板均不合要求,可单击“新建告警模板”创建一个静态阈值模板,操作详见创建静态阈值模板。
触发条件
-
系统自动导入模板中已设置好的触发条件,并且触发条件不支持修改。
高级设置
告警恢复
监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。
默认只监控一个周期,最多可监控5个周期指标数据。
系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。
- 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。
- 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
- 直接告警:满足告警条件,直接发送告警。
- 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。
- 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警恢复”中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则。
- 直接告警:满足告警条件,直接发送告警。
- 单击“立即创建”,完成创建。创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。
在展开的列表中,只要某个主机的指标数据满足设置的告警条件时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。
更多阈值规则操作
阈值规则创建完成后,您还可以执行表3中的操作。
操作 |
说明 |
---|---|
修改阈值规则 |
单击“操作”列的“编辑”。 |
删除阈值规则 |
|
启、停阈值规则 |
单击“操作”列的“更多 > 启用”或“更多 > 停用”;或者选中一个或多个阈值规则前的复选框,在规则列表上方单击“批量操作 > 启用”或“批量操作 > 停用”。
说明:
单条阈值规则不支持启、停操作。 |
搜索阈值规则 |
支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。 |
查看告警 |
在已设的连续周期内,当某个资源的指标数据满足阈值条件时,产生一条阈值告警。 可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。 |
查看事件 |
在已设的连续周期内,当某个资源没有指标数据上报时,会产生一条数据不足的事件。 可在左侧导航栏中选择“告警> 事件列表”,在事件列表中查看该事件。 |