更新时间:2024-04-15 GMT+08:00

创建指标告警规则

通过指标告警规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。

功能介绍

  • 告警条件支持连续周期、统计周期、阈值条件等设置,具体请参考设置告警条件
  • 支持配置告警恢复是否通知,具体请参考设置告警条件

创建方式

按照配置方式的不同,创建指标告警规则可分为三种:按资源类型创建按全量指标创建按Prometheus命令创建

其中,按资源类型创建指标告警规则时告警条件可通过两种方式设置:自定义创建从模板导入。使用模板创建指标告警规则前,需先创建一个告警模板,具体操作请参见创建告警模板

注意事项

指标告警规则的状态(正常、超限阈值、生效中、停用中)发生变化时,如需使用邮件或短信等方式发送通知,请参考创建告警行动规则设置告警行动规则。

按资源类型创建指标告警规则

  1. 在菜单栏选择“监控中心”,进入“监控中心”界面。
  2. 在左侧导航栏中选择“告警管理 > 告警规则”。
  3. 在“规则列表”页签下单击 “创建告警规则”。
  4. 设置告警规则基本信息,具体的参数说明如表1所示。

    表1 基本信息填写说明

    参数名称

    说明

    规则名称

    规则名称。最多可输入255个字符,不能包含特殊字符"$#%&'+;<=>?\

    描述

    规则的描述信息,最多可输入1000个字符。

  5. 设置告警规则的详细信息。

    1. 选择“规则类型”为“指标告警规则”。
    2. 选择指标配置方式为“按资源类型”,设置资源类型和监控对象信息,具体的参数说明如所表2示。
      表2 参数填写说明

      参数名称

      说明

      资源类型

      单击下拉箭头,在资源树中选择待监控的资源类型。

      • 选择“应用指标”页签时,支持按以下维度选择资源:
        • 主机:支持按主机维度级联选择监控资源,包括主机、主机-磁盘、主机-网络、主机-文件系统、主机-GPU。
        • 应用:支持按应用维度选择监控资源。
        • 组件:支持按组件维度选择监控资源。
        • 进程:支持按进程维度选择监控资源。
      • 选择“云服务指标”页签时,支持按云服务维度选择资源。

      监控对象

      单击“选择监控对象”,弹出的“选择监控对象”对话框中会展示当前系统已有的该类型的所有资源,请根据需要选择。

      选择监控对象时,如果开启了“应用到所有”开关,将会针对某个应用或服务下的所有该类型资源创建一条告警规则。后续系统中应用或服务下该类型的资源有新增、修改或删除时,新增或修改的资源会自动绑定到创建的告警规则,删除的资源则自动从告警规则解绑。

    3. 设置告警条件。告警条件可通过自定义创建和从模板导入两种方式设置,请根据需要选择:
      • 自定义创建

        单击“自定义创建”,设置连续周期、统计周期、阈值条件等告警条件参数。具体的参数说明如表3所示。

        表3 告警条件填写说明

        参数类别

        参数名称

        参数说明

        告警条件

        指标

        需要监控的指标。

        连续周期

        连续多少个周期满足阈值条件后,发送指标告警。

        统计周期

        指标数据按照所设置的统计周期进行聚合,包括:1分钟、5分钟、15分钟、1小时。

        统计方式

        指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

        阈值条件

        指标告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成指标告警。

        告警级别

        指标告警的级别,包括:紧急、重要、次要、提示。

        -

        检查频率

        根据设置的频率对指标数据查询和分析结果进行检查。

        • 每小时:每小时检查一次查询和分析结果。
        • 每天:在每天的某个固定时间点检查一次查询和分析结果。
        • 每周:在周几的某个固定时间点检查一次查询和分析结果。
        • 固定间隔:按照固定间隔检查查询和分析结果。
        • Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。

          Cron表达式的最小精度为分钟,24小时制,例如设置为0/5 * * * *,表示从0分钟开始,每隔5分钟检查一次。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。

      • 从模板导入

        单击“从模板导入”,并设置相关参数。使用模板创建指标告警规则前,请先创建一个告警模板,操作详见创建告警模板

        表4 告警条件填写说明

        参数名称

        参数说明

        绑定模板

        选择是否绑定告警模板。

        告警模板

        选择已创建的告警模板。如果现有的模板均不合要求,可单击“新建告警模板”创建。

        告警条件

        系统自动导入模板中已设置好的告警条件,并且告警条件不支持修改。

        检查频率

        系统自动导入模板中已设置好的检查频率,并且检查频率不支持修改。

        告警恢复

        系统自动导入模板中已设置好的告警恢复信息,并且不支持修改。

        无数据处理

        系统自动导入模板中已设置好的无数据处理信息,并且不支持修改。

  6. 设置告警通知策略。

    • 直接告警:满足告警条件,直接发送告警。
      1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则
      2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足高级设置-告警恢复中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。

  7. 单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。

    在展开的列表中,只要某个指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

按全量指标创建指标告警规则

  1. 在菜单栏选择“监控中心”,进入“监控中心”界面。
  2. 在左侧导航栏中选择“告警管理 > 告警规则”。
  3. 在“规则列表”页签下单击 “创建告警规则”。
  4. 设置告警规则基本信息,具体的参数说明如表5所示。

    表5 基本信息填写说明

    参数名称

    说明

    规则名称

    规则名称。最多可输入255个字符,不能包含特殊字符"$#%&'+;<=>?\

    描述

    规则的描述信息,最多可输入1000个字符。

  5. 设置告警规则的详细信息。

    1. 选择“规则类型”为“指标告警规则”。
    2. 选择指标配置方式为“按全量指标”。
      • 通过“全量指标”方式选择指标时,仅支持英文展示和英文搜索。
      • 范围:指标监控的维度。指标的范围为key:value键值对格式,可从下拉列表中直接选择,通过AND、OR、NOT三种关键词可为同一指标设置多个监控范围。
      • 分组条件:指标数据按指定字段分组聚合,对聚合的结果进行运算。包括:不分组、avg by、max by、min by、sum by。例如,将分组条件设置为:avg by clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。
    3. 从下拉列表选择需要创建告警的Prometheus实例。
    4. 设置指标、环境、检查频率等告警条件参数。具体的参数说明如表6所示。

      告警条件设置完成后,监控的指标数据以折线图形式显示在告警条件上方,单击“图表收起”、指标名称前的、或每条指标数据前的折线符号可将对应指标数据在当前图表中隐藏。

      表6 告警条件填写说明

      参数类别

      参数名称

      参数说明

      -

      逐条添加

      按设置的告警条件逐条计算,只要满足一个条件触发告警。

      例如,设置了三个告警条件,则系统按照三个告警条件分别计算,只要满足任意一条则触发告警。

      -

      混合运算

      将设置的多个告警条件按照表达式计算后,满足条件则触发告警。

      例如,查看主机的CPU内核占用率,没有直接可用的指标,可以按如下方案设置:

      • 告警条件a的指标设置为“aom_node_cpu_used_core”,其余参数采用默认设置。该指标用于统计测量对象已经使用的CPU核个数。
      • 告警条件b的指标设置为“aom_node_cpu_limit_core”,其余参数采用默认设置。该指标用于统计测量对象申请的CPU核总量。
      • 表达式设置为“a/b”,最终计算结果即为主机的CPU内核占用率。
      • 阈值条件设置为“>0.2”。
      • 告警级别设置为“紧急”

      当主机的CPU内核占用率大于0.2时,则触发紧急告警。

      告警条件

      指标

      请选择需要监控的指标。

      范围

      指标监控的维度。

      指标的范围为key:value键值对格式,可从下拉列表中直接选择,通过AND、OR、NOT三种关键词可为同一指标设置多个监控范围。

      分组条件

      指标数据按指定字段分组聚合,对聚合的结果进行运算。包括:不分组、avg by、max by、min by、sum by。例如,分组条件设置为:avg by clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。

      阈值条件

      指标告警的触发条件,由分组条件(不分组、)、判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成指标告警。

      将光标移动至告警条件上方的图表区,会浮动显示当前指标的ID、IP、单位等信息。

      告警级别

      指标告警的级别,包括:紧急、重要、次要、提示。

      -

      检查频率

      根据设置的频率对指标数据查询和分析结果进行检查。

      • 每小时:每小时检查一次查询和分析结果。
      • 每天:在每天的某个固定时间点检查一次查询和分析结果。
      • 每周:在周几的某个固定时间点检查一次查询和分析结果。
      • 固定间隔:按照固定间隔检查查询和分析结果。
      • Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。

        Cron表达式的最小精度为分钟,24小时制,例如设置为0/5 * * * *,表示从0分钟开始,每隔5分钟检查一次。

      -

      统计周期

      指标数据按照所设置的统计周期和统计方式进行聚合,连续多少个周期满足阈值条件后,发送指标告警。默认统计最近1分钟的指标。

      高级设置

      告警恢复

      监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

      无数据处理

      监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

      默认只监控一个周期,最多可监控5个周期指标数据。

      系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。

  6. 设置告警通知策略。

    • 直接告警:满足告警条件,直接发送告警。
      1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则
      2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足高级设置-告警恢复中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。

  7. 单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。

    在展开的列表中,只要指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

按Prometheus命令创建指标告警规则

  1. 在菜单栏选择“监控中心”,进入“监控中心”界面。
  2. 在左侧导航栏中选择“告警管理 > 告警规则”。
  3. 在“规则列表”页签下单击 “创建告警规则”。
  4. 设置告警规则基本信息,具体的参数说明如表5所示。

    表7 基本信息填写说明

    参数名称

    说明

    规则名称

    规则名称。最多可输入255个字符,不能包含特殊字符"$#%&'+;<=>?\

    描述

    规则的描述信息,最多可输入1000个字符。

  5. 设置告警规则的详细信息。

    1. 选择“规则类型”为“指标告警规则”。
    2. 选择指标配置方式为“按Prometheus命令”。
    3. 从下拉列表选择需要创建告警的Prometheus实例。
    4. 输入Prometheus命令。系统提供手动输入和系统自动填充两种输入方式。
      • 手动输入:已知指标的名称、IP等信息,且对普罗语句格式较了解时,可直接手动输入相关的普罗格式命令行。输入完成后,单击,即可在下方区域实时呈现相关指标图表。
      • 系统自动填充:不确定指标信息或对普罗格式不了解时,可采用系统自动填充方式。系统自动填充方式需要从“指标浏览”界面跳转后填充。

        具体操作:在左侧导航栏中选择“指标浏览”。从下拉列表选择需要监控的Prometheus实例,在“指标列表”页签下,通过“指标类型”、“全量指标”或“按资源类型”方式在资源树上选择一个或多个(最多可选12个)关注的指标。选择指标后,在指标列表上方的图表类型后中单击,系统自动跳转到指标告警规则的创建界面,并自动填充相关指标的Prometheus格式命令行。

      • 单击“查看示例”可参考示例输入命令,命令行输入的详细说明请参见普罗语句说明
    5. 设置告警条件。设置连续周期、统计周期、阈值条件等告警条件参数。具体的参数说明如表8所示。
      表8 告警条件填写说明

      参数类别

      参数名称

      参数说明

      告警条件

      连续周期

      连续多少个周期满足阈值条件后,发送指标告警。

      统计周期

      指标数据按照所设置的统计周期进行聚合,包括:1分钟、5分钟、15分钟、1小时。

      统计方式

      指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

      阈值条件

      指标告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成指标告警。

      告警级别

      指标告警的级别,包括:紧急、重要、次要、提示。

      -

      检查频率

      根据设置的频率对指标数据查询和分析结果进行检查。

      • 每小时:每小时检查一次查询和分析结果。
      • 每天:在每天的某个固定时间点检查一次查询和分析结果。
      • 每周:在周几的某个固定时间点检查一次查询和分析结果。
      • 固定间隔:按照固定间隔检查查询和分析结果。
      • Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。

        Cron表达式的最小精度为分钟,24小时制,例如设置为0/5 * * * *,表示从0分钟开始,每隔5分钟检查一次。

      高级设置

      告警恢复

      监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

      无数据处理

      监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

      默认只监控一个周期,最多可监控5个周期指标数据。

      系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。

  6. 设置告警通知策略。

    • 直接告警:满足告警条件,直接发送告警。
      1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则
      2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足高级设置-告警恢复中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。

  7. 单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。

    在展开的列表中,只要某个指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。