创建指标告警规则
通过指标告警规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。
功能介绍
创建方式
按照配置方式的不同,创建指标告警规则可分为两种:按全量指标创建、按Prometheus命令创建。
注意事项
- 指标告警规则的状态(正常、超限阈值、生效中、停用中)发生变化时,如需使用邮件或短信等方式发送通知,请参考创建告警行动规则设置告警行动规则。
- 按全量指标和按Prometheus命令创建指标告警规则时支持秒级监控,指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。
按全量指标创建指标告警规则
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警管理 > 告警规则”。
- 单击“创建” 。
- 设置告警规则基本信息,具体的参数说明如表1所示。
- 设置告警规则的详细信息。
- 选择“规则类型”为“指标告警规则”。
- 选择指标配置方式为“全量指标”。
- 从下拉列表选择需要创建告警的Prometheus实例。
- 设置告警规则详情。具体的参数说明如表2所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方,最多支持展示50条指标数据,单击每条指标数据前的折线符号可将对应指标数据在当前图表中隐藏。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
将光标移动到指标数据和对应告警条件后,还可以根据需要执行以下操作:
- 单击告警条件后的,可将对应行的指标数据在当前图表中隐藏。
- 单击告警条件后的,可将对应行的指标数据和告警条件转换为Prometheus命令。
- 单击告警条件后的,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。
- 单击告警条件后的,可删除对应行指标数据的监控。
图1 设置告警规则详情
表2 告警规则详情填写说明 参数名称
参数说明
多指标
按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。
例如,设置了三个告警条件,则系统按照三个告警条件分别计算,只要满足任意一条则触发告警。
混合运算
将设置的多个指标数据和告警条件按照表达式计算后,满足条件则触发告警。
例如,查看主机的CPU内核占用率,没有直接可用的指标,可以按如下方案设置:
- 告警条件a的指标设置为“aom_node_cpu_used_core”,其余参数采用默认设置。该指标用于统计测量对象已经使用的CPU核个数。
- 告警条件b的指标设置为“aom_node_cpu_limit_core”,其余参数采用默认设置。该指标用于统计测量对象申请的CPU核总量。
- 表达式设置为“a/b”,最终计算结果即为主机的CPU内核占用率。
- 检测规则设置为“最大值>0.2”。
- 触发条件设置为“连续周期:3”
- 告警级别设置为“紧急”。
当连续3个统计周期,主机CPU内核占用率的最大值大于0.2时,则触发紧急告警。
指标
需要监控的指标。通过“全量指标”方式选择指标时,仅支持英文展示和英文搜索。
单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。
统计周期
指标数据按照所设置的统计周期进行聚合,包括:15秒、30秒、1分钟、5分钟、15分钟、1小时。
条件
指标监控的维度。不设置则表示选中全部资源。
指标的条件为key:value键值对格式,维度名称可从下拉列表中直接选择,维度值根据匹配方式的不同,设置方式不同:
- 匹配方式为“=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示只监控主机名为“192.168.16.4”的资源。
- 匹配方式为“!=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示监控除主机名为“192.168.16.4”的资源外的其他资源。
- 匹配方式为“=~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示只监控主机名为“192.*”和“172.*”的资源。
- 匹配方式为“!~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示监控除主机名为“192.*”和“172.*”的资源外的其他资源。
正则表达式的输入请参见正则表达式输入说明。
单击,通过AND、OR关键词可为同一指标设置多个监控条件。
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。包括:不分组、avg by、max by、min by、sum by。例如,分组条件设置为:avg by clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
触发条件
连续多少个周期满足阈值条件后,触发指标告警。连续周期的取值范围为1~30。
例如,设置连续周期为“2”,则表示连续2个周期满足检测规则的条件,触发指标告警。
告警级别
指标告警的级别,包括:
- :表示紧急告警。
- :表示重要告警。
- :表示次要告警。
- :表示提示告警。
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表3。
表3 “高级设置”填写说明 参数名称
参数说明
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
- 每小时:每小时检查一次查询和分析结果。
- 每天:在每天的某个固定时间点检查一次查询和分析结果。
- 每周:在周几的某个固定时间点检查一次查询和分析结果。
- 固定间隔:按照固定间隔检查查询和分析结果。
说明:
检查频率可以选择设置为固定间隔15秒或30秒以实现秒级监控。指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。
例如,指标上报周期为5秒,规则检查频率设置为固定间隔30秒,通知发送耗时1秒,即可在36秒以内检测到告警并发送通知。
- Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。
告警恢复
连续多少个周期不满足告警条件,恢复告警。默认只监控一个周期,最多可监控30个连续周期指标数据。
例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。
默认只监控一个周期,最多可监控5个连续周期指标数据。
系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。
告警标签
单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。
详细说明请参见标签和标注。
说明:如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
告警标注
单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。
详细说明请参见标签和标注。
- 设置告警通知策略。具体参数说明请参见表4。
图2 设置告警通知策略
表4 告警通知策略填写说明 参数名称
参数说明
通知场景
设置发送告警通知的场景。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则。
说明:所选择告警降噪的分组规则中配置的告警级别、标签等信息需与告警规则中的配置信息匹配,否则分组规则不生效。
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,只要指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
图3 创建指标告警规则
按Prometheus命令创建指标告警规则
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警管理 > 告警规则”。
- 单击“创建”。
- 设置告警规则基本信息,具体的参数说明如表5所示。
- 设置告警规则的详细信息。
- 选择“规则类型”为“指标告警规则”。
- 选择指标配置方式为“PromQL”。
- 从下拉列表选择需要创建告警的Prometheus实例。
- 设置告警规则详情。具体的参数说明如表6所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方,最多支持展示50条指标数据,单击每条指标数据前的折线符号可将对应指标数据在当前图表中隐藏。
图4 设置告警规则详情
表6 告警规则详情填写说明 参数名称
参数说明
默认规则
根据普罗语句生成指标告警的检测规则。系统提供自定义输入和通过CCE模板填充两种输入方式,输入完成后,单击“查询”,即可在下方区域实时呈现相关指标图表。
- 自定义输入:已知指标的名称、IP等信息,且对普罗语句格式较了解时,在下拉列表中选择“自定义”,手动输入相关的普罗格式命令行。
- 通过CCE模板填充:不确定指标信息或对普罗格式不了解时,可采用系统自动填充方式。在下拉列表中选择“CCEFromProm”,单击“请选择默认模板”,从默认提供的CCE模板中选择合适的模板,系统会根据选择的模板自动填充相关指标的普罗格式命令行。
单击可参考示例输入命令,命令行输入的详细说明请参见普罗语句说明。
告警级别
指标告警的级别,包括:
- :表示紧急告警。
- :表示重要告警。
- :表示次要告警。
- :表示提示告警。
维度变量
指标监控的维度,根据用户设置的普罗语句自动生成。
持续时长
连续多长时间满足告警条件后,触发指标告警。包括:立即、15秒、30秒、1分钟、2分钟、5分钟、10分钟。例如,设置持续时长为“2分钟”,则表示连续2分钟满足默认规则的条件,触发指标告警。
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表7。
表7 “高级设置”填写说明 参数名称
参数说明
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
- XX小时:间隔XX小时检查一次查询和分析结果。
- XX分钟:间隔XX分钟检查一次查询和分析结果。
- XX秒:间隔XX秒检查一次查询和分析结果。
说明:
检查频率可以设置为15秒或30秒以实现秒级监控。指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。
例如,指标上报周期为15秒,规则检查频率设置为15秒,通知发送耗时为3秒,即可在33秒以内检测到告警并发送告警通知。
告警标签
为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。
根据用户输入的普罗语句自动生成,支持用户自定义修改。单击可添加多条添加告警标签。详细说明请参见标签和标注。
说明:如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
告警标注
单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。详细说明请参见标签和标注。
- 设置告警通知策略。具体参数说明请参见表8。
图5 设置告警通知策略
表8 告警通知策略填写说明 参数名称
参数说明
通知场景
设置发送告警通知的场景。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。
启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则。
说明:所选择告警降噪的分组规则中配置的告警级别、标签等信息需与告警规则中的配置信息匹配,否则分组规则不生效。
通知模板
发送告警通知的模板,根据用户输入的普罗语句自动生成。
说明:- 通知模板可以使用变量的方式,变量即维度变量,填写方式${维度}。
- 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。
在展开的列表中,只要某个指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。
图6 创建指标告警规则