更新时间:2024-04-15 GMT+08:00

创建告警规则并查看

通过告警规则可对资源的指标设置阈值条件,当指标数据满足阈值条件时,会产生告警。当没有指标数据上报时,会产生数据不足事件,以便您在第一时间发现异常并进行处理。

按照配置方式的不同,创建指标告警规则可分为三种:按资源类型创建、按全量指标创建和按Prometheus命令创建。本章以按资源类型创建为例介绍如何添加告警规则并查看告警。

创建指标告警规则

  1. 在菜单栏选择“监控中心”,进入“监控中心”界面。
  2. 在左侧导航栏中选择“告警管理 > 告警规则”。
  3. 在“规则列表”页签下单击 “创建告警规则”。
  4. 设置告警规则基本信息,具体的参数说明如表1所示。

    表1 基本信息填写说明

    参数名称

    说明

    规则名称

    规则名称。最多可输入255个字符,不能包含特殊字符"$#%&'+;<=>?\

    描述

    规则的描述信息,最多可输入1000个字符。

  5. 设置告警规则的详细信息。

    1. 选择“规则类型”为“指标告警规则”。
    2. 选择指标配置方式为“按资源类型”,设置资源类型和监控对象信息。
      • 资源类型:单击下拉箭头,在资源树中选择待监控的资源类型。
      • 监控对象:单击“选择监控对象”,选择需要的监控对象。

        选择监控对象时,如果开启了“应用到所有”开关,将会针对应用或服务下的所有该类型指标创建一条告警规则。

    3. 设置告警条件。告警条件可通过自定义创建和从模板导入两种方式设置,此处选择自定义创建方式:
      • 自定义创建

        单击“自定义创建”,设置连续周期、统计周期、阈值条件等告警条件参数。具体的参数说明如表2所示。

        表2 告警条件填写说明

        参数类别

        参数名称

        参数说明

        告警条件

        指标

        需要监控的指标。

        连续周期

        连续多少个周期满足阈值条件后,发送指标告警。

        统计周期

        指标数据按照所设置的统计周期进行聚合,包括:1分钟、5分钟、15分钟、1小时。

        统计方式

        指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

        阈值条件

        指标告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成指标告警。

        告警级别

        指标告警的级别,包括:紧急、重要、次要、提示。

        -

        检查频率

        根据设置的频率对指标数据查询和分析结果进行检查。

        • 每小时:每小时检查一次查询和分析结果。
        • 每天:在每天的某个固定时间点检查一次查询和分析结果。
        • 每周:在周几的某个固定时间点检查一次查询和分析结果。
        • 固定间隔:按照固定间隔检查查询和分析结果。
        • Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。

          Cron表达式的最小精度为分钟,24小时制,例如设置为0/5 * * * *,表示从0分钟开始,每隔5分钟检查一次。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。

  6. 设置告警通知策略。直接告警方式:满足告警条件,直接发送告警。

    1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则
    2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足高级设置-告警恢复中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。

  7. 单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。

    在展开的列表中,只要某个指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。

查看告警

  1. 在左侧导航栏中选择“告警管理 > 告警列表”。
  2. 单击“告警”页签,查看告警信息。

    1. 设置时间范围,查看已设时间范围内产生的告警。可通过如下两种方式设置时间范围:

      方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。

      方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为31天。

    2. 设置告警信息的刷新频率。单击,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。
    3. 设置搜索条件后,单击,查看在已设时间范围内满足搜索条件的告警。

  3. 您可参考表3执行如下操作:

    表3 操作说明

    操作

    说明

    查看告警统计数据

    单击,可通过柱状图查看在指定时间范围内和搜索条件下告警的统计数据。

    清除告警

    • 清除一个告警:单击目标告警所在“操作”列中的“”。
    • 清除一个或多个告警:选中一个或多个告警前的复选框,在弹出框单击“批量清除”。
      说明:

      告警故障已经解除时可进行清除操作。

    查看告警详情

    单击告警名称可查看告警详情和修复建议。

    查看已清除告警

    在右上角单击“活动告警”,在下拉列表中选择“历史告警”,可查看被清除的告警。