更新时间:2024-10-28 GMT+08:00

创建阈值规则

通过阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。

创建方式

阈值规则的创建方式分为两种:自定义阈值规则使用模板创建阈值规则。一次创建后,只生成一条规则,无论是一个还是多个资源,均通过同一条规则进行监控。使用静态阈值模板创建阈值规则前,您需先创建一个静态阈值模板,操作详见创建静态阈值模板

注意事项

  • 阈值规则的状态(正常、超限阈值、数据不足、停用中)发生变化时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。
  • 通过一条阈值规则批量监控多个资源的指标数据时,阈值规则的状态说明如下:
    • 某个资源的指标状态为“超限阈值”时,阈值规则的状态显示为“超限阈值”。
    • 某个或多个资源的指标状态为“数据不足”或“正常”时,阈值规则的状态均显示为“正常”。

自定义阈值规则

  1. 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
  2. 设置阈值规则。

    1. 设置规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
    2. 设置规则的详细信息。
      1. 设置“规则类型”为“阈值规则”。
      2. 选择监控对象。通过以下两种方式选择:
        • 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。
          • 监控对象最多可添加100条指标数据。
          • 选择监控对象时,如果开启了应用到所有开关,将会针对应用或服务下的所有该类型指标创建一条告警规则。例如选择了“CCE / 主机 / 主机 / CPU使用率”指标,开启应用到所有开关,则会为CCE服务下所有主机创建一条告警规则。
          • 单击“修改资源对象”可修改已选择的资源对象。
        • 命令行输入:提供手动输入和系统自动填充两种输入方式。
          • 手动输入:已知指标的名称、IP等相关信息,且对Prometheus格式较了解时,可直接手动输入相关的Prometheus格式命令行。
            例如查询主机CPU使用率,可输入如下命令:avg(label_replace(avg_over_time(aom_node_cpu_usage{hostID="81010a40-1682-41c1-9645-f0588ff9c0cf",nodeIP="192.168.1.210",clusterId = '00000000-0000-0000-0000-00000000'}[59999ms]), "__name__","aom_node_cpu_usage","","")) by(__name__,hostID,nodeIP)

            如需查看Prometheus格式命令行的详细说明,请将光标移至搜索框后的处,单击“了解更多”。

          • 系统自动填充:不确定指标信息或对Prometheus格式不了解时,可采用系统自动填充方式。系统自动填充方式需要从“指标浏览”界面跳转后填充。

            具体操作:在左侧导航栏中选择“监控 > 指标浏览”。单击“添加指标查询”,通过“按指标维度添加”或“按资源添加”方式在资源树上选择一个或多个(最多可选12个)关注的指标。选择指标后,在“操作”列中单击,系统自动跳转到阈值规则的创建界面,并自动填充相关指标的Prometheus格式命令行。

      3. 设置告警条件。单击“自定义创建”,设置统计周期、连续周期、阈值条件等触发条件参数。具体的参数说明如表1所示。
        表1 告警条件填写说明

        参数类别

        参数名称

        参数说明

        触发条件

        统计周期

        指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。

        连续周期

        连续多少个周期满足阈值条件后,发送阈值告警。

        统计方式

        指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

        阈值条件

        阈值告警的触发条件,由判断条件(≥、≤、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。

        将光标移动至告警条件上方的图表区,会浮动显示当前指标的ID、IP、单位等信息。

        告警级别

        阈值告警的级别,包括:紧急、重要、次要、提示。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。

        图1 设置告警条件
      4. 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。详细说明请参见标签和标注

        单击“添加自定义标签”或“添加自定义标注”可添加多条信息。

    3. 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
      • 直接告警:满足告警条件,直接发送告警。
        1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则
        2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警恢复”中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。
        图2 设置直接告警方式
      • 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。

        从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则

        图3 设置告警降噪方式

  3. 单击“立即创建”,完成创建。创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。

    在展开的列表中,只要某个主机的指标数据满足设置的告警条件时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

    图4 创建阈值规则

使用模板创建阈值规则

使用模板创建阈值规则前,请先创建一个静态阈值模板,操作详见创建静态阈值模板

  1. 登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”。
  2. 设置阈值规则。

    1. 设置规则的基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
    2. 设置告警规则的详细信息。
      1. 设置“规则类型”为“阈值规则”。
      2. 选择监控对象。使用模板创建阈值规则的场景下,只能通过“按指标维度添加”或“按资源添加”方式选择指标,不支持命令行输入方式选择指标。
      3. 设置告警条件。单击“从模板导入”,从下拉列表中选择已创建的静态阈值模板,并设置告警恢复和无数据处理等参数。
        图5 设置告警条件
        表2 告警条件填写说明

        参数类别

        参数名称

        参数说明

        告警模板

        -

        选择已创建的静态阈值模板。如果现有的模板均不合要求,可单击“新建告警模板”创建一个静态阈值模板,操作详见创建静态阈值模板

        触发条件

        -

        系统自动导入模板中已设置好的触发条件,并且触发条件不支持修改。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。

      4. 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。

        单击“添加自定义标签”或“添加自定义标注”可添加多条信息。

    3. 设置告警通知策略。告警通知策略有两种方式,请根据需要选择:
      • 直接告警:满足告警条件,直接发送告警。
        1. 设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则
        2. 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警恢复”中设置的告警恢复条件,则按照选择的告警行动规则发送告警恢复通知。
        图6 设置直接告警方式
      • 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。

        从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可单击“新建分组规则”添加,具体操作请参见分组规则

        图7 设置告警降噪方式

  3. 单击“立即创建”,完成创建。创建了一条阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。

    在展开的列表中,只要某个主机的指标数据满足设置的告警条件时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

    图8 创建阈值规则

更多阈值规则操作

阈值规则创建完成后,您还可以执行表3中的操作。

表3 相关操作

操作

说明

修改阈值规则

单击“操作”列的“编辑”。

删除阈值规则

  • 删除一个阈值规则:单击“操作”列的“删除”。
  • 删除一个或多个阈值规则:选中一个或多个阈值规则前的复选框,在规则列表上方单击“删除”。

迁移阈值规则

选中一个或多个阈值规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”,可将选中的阈值规则批量迁移至AOM 2.0。

须知:
  • 迁移操作无法恢复,请谨慎操作。
  • 如果待迁移的阈值规则依赖告警模板,阈值规则迁移时,对应的告警模板会同步迁移。

启、停阈值规则

单击“操作”列的“启用”或“停用”。

说明:

单条阈值规则不支持启、停操作。

搜索阈值规则

支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。

查看告警

在已设的连续周期内,当某个资源的指标数据满足阈值条件时,产生一条阈值告警。

可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。

查看事件

在已设的连续周期内,当某个资源没有指标数据上报时,会产生一条数据不足的事件。

可在左侧导航栏中选择“告警> 事件列表”,在事件列表中查看该事件。