文档首页> 应用运维管理 AOM> 最佳实践> 阈值告警最佳实践(新版)
更新时间:2022-05-24 GMT+08:00
分享

阈值告警最佳实践(新版)

该功能对西南-贵阳一、亚太-曼谷、亚太-新加坡、中国-香港、华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州和华南-深圳区域生效。

告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。

支持的指标

AOM支持为主机、组件等多种资源的指标设置阈值告警,具体支持的指标类型可在创建阈值告警规则的页面查看。

更多指标介绍可参见《AOM产品介绍》“指标总览”章节。

创建方式

阈值告警规则的创建方式分为两种:自定义阈值规则使用模板创建阈值规则。一次创建后,只生成一条规则,无论是一个还是多个资源,均通过同一条规则进行监控。

使用静态阈值模板创建静态阈值规则前,您需先创建一个静态阈值模板。

推荐使用“自定义阈值规则”方式创建。

自定义阈值规则

  1. 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
  2. 自定义阈值规则。

    1. 设置阈值规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
      图1 设置告警基本信息
    2. 设置阈值规则的详细信息。
      1. 设置“规则类型”为“阈值规则”。
      2. 选择监控对象。通过以下两种方式选择:
        • 选择资源对象:单击“选择资源对象”,通过“按指标维度添加”或“按资源添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。

          监控对象最多可添加100条指标数据。

        • 命令行输入:输入指标相关的Prometheus格式命令行。
      3. 设置告警条件。单击“自定义创建”,设置统计周期、连续周期、阈值条件等触发条件参数。具体的参数说明如表1所示。
        表1 告警条件填写说明

        参数类别

        参数名称

        参数说明

        触发条件

        统计周期

        指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。

        连续周期

        连续多少个周期满足阈值条件后,发送阈值告警。

        统计方式

        指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

        阈值条件

        阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。

        告警级别

        阈值告警的级别,包括:紧急、重要、次要、提示。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。

        图2 设置告警条件
      4. 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。

        单击“添加自定义标签”或“添加自定义标注”可添加多条信息。

    3. 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
      • 直接告警:满足告警条件,直接发送告警。

        需要设置是否启用告警行动策略。启用后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动策略无法满足需要,可单击“新建告警行动策略”添加。设置告警行动策略的操作详见告警行动策略

        图3 设置直接告警方式
      • 告警降噪:对告警信息自动匹配告警行动策略后再发送告警,防止产生告警风暴。

        根据需要选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则

        图4 设置告警降噪方式

  3. 单击“立即创建”,完成创建。如下图所示,创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。

    在展开的列表中,只要某个主机的物理内存使用率超过10%时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信或企业微信等方式发送告警通知给指定人员。

    图5 创建阈值规则

分享:

    相关文档

    相关产品

close