文档首页/ 应用运维管理 AOM/ 最佳实践(1.0)/ 阈值告警最佳实践(新版)
更新时间:2024-08-01 GMT+08:00

阈值告警最佳实践(新版)

该功能对华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域生效。

告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。

支持的指标

AOM支持为主机、组件等多种资源的指标设置阈值告警,具体支持的指标类型可在创建阈值告警规则的页面查看。

更多指标介绍可参见指标总览

创建方式

阈值告警规则的创建方式分为两种:自定义阈值规则使用模板创建阈值规则。一次创建后,只生成一条规则,无论是一个还是多个资源,均通过同一条规则进行监控。

使用静态阈值模板创建静态阈值规则前,您需先创建一个静态阈值模板。

推荐使用“自定义阈值规则”方式创建。

自定义阈值规则

  1. 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
  2. 自定义阈值规则。

    1. 设置规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
    2. 设置阈值规则的详细信息。
      1. 设置“规则类型”为“阈值规则”。
      2. 选择监控对象。通过以下两种方式选择:
        • 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。
          • 监控对象最多可添加100条指标数据。
          • 选择监控对象时,如果开启了应用到所有开关,将会针对应用或服务下的所有该类型指标创建一条告警规则。例如选择了“CCE / 主机 / 主机 / CPU使用率”指标,开启应用到所有开关,则会为CCE服务下所有主机创建一条告警规则。
          • 单击“修改资源对象”可修改已选择的资源对象。
        • 命令行输入:提供手动输入和系统自动填充两种输入方式。
          • 手动输入:已知指标的名称、IP等相关信息,且对Prometheus格式较了解时,可直接手动输入相关的Prometheus格式命令行。
            例如查询主机CPU使用率,可输入如下命令:avg(label_replace(avg_over_time(aom_node_cpu_usage{hostID="81010a40-1682-41c1-9645-f0588ff9c0cf",nodeIP="192.168.1.210",clusterId = '00000000-0000-0000-0000-00000000'}[59999ms]), "__name__","aom_node_cpu_usage","","")) by(__name__,hostID,nodeIP)

            如需查看Prometheus格式命令行的详细说明,请将光标移至搜索框后的处,单击“了解更多”。

          • 系统自动填充:不确定指标信息或对Prometheus格式不了解时,可采用系统自动填充方式。系统自动填充方式需要从“指标浏览”界面跳转后填充。

            具体操作:在左侧导航栏中选择“监控 > 指标浏览”。单击“添加指标查询”,通过“按指标维度添加”或“按资源添加”方式在资源树上选择一个或多个(最多可选12个)关注的指标。选择指标后,在“操作”列中单击,系统自动跳转到阈值规则的创建界面,并自动填充相关指标的Prometheus格式命令行。

      3. 设置告警条件。单击“自定义创建”,设置统计周期、连续周期、阈值条件等触发条件参数。具体的参数说明如表1所示。
        表1 告警条件填写说明

        参数类别

        参数名称

        参数说明

        触发条件

        统计周期

        指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。

        连续周期

        连续多少个周期满足阈值条件后,发送阈值告警。

        统计方式

        指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

        阈值条件

        阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。

        将光标移动至告警条件上方的图表区,会浮动显示当前指标的ID、IP、单位等信息。

        告警级别

        阈值告警的级别,包括:紧急、重要、次要、提示。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。

        图1 设置告警条件
      4. 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。

        单击“添加自定义标签”或“添加自定义标注”可添加多条信息。

    3. 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
      • 直接告警:满足告警条件,直接发送告警。
        1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见告警行动规则
        2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警恢复”中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。
        图2 设置直接告警方式
      • 告警降噪:对告警信息自动匹配告警行动规则后再发送告警,防止产生告警风暴。

        从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则

        图3 设置告警降噪方式

  3. 单击“立即创建”,完成创建。如下图所示,创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。

    在展开的列表中,只要某个主机的指标数据满足设置的告警条件时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信或企业微信等方式发送告警通知给指定人员。

    图4 创建阈值规则