更新时间:2024-08-05 GMT+08:00

告警模板

告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。

注意事项

您最多可创建150个告警模板,如果告警模板数量已达到150个,请删除不需要的告警模板后重新创建。

背景信息

AOM针对所有主机和所有服务的关键指标(包括CPU使用率指标、物理内存使用率指标、主机状态指标、服务状态指标)预置多种默认告警模板,显示在“告警模板”界面的“默认告警模板”页签下,供您选择使用。在默认告警模板所在行,单击“操作”列的,可根据默认告警模板快速自定义告警模板。

创建告警模板

  1. 登录AOM 2.0控制台。
  2. 在左侧导航栏中选择“告警管理 > 告警模板”。
  3. 单击 “创建告警模板”。
  4. 设置告警模板的基本信息。具体的参数说明如表1所示。

    表1 基本信息填写说明

    参数名称

    说明

    模板名称

    告警模板的名称。最多可输入100个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入下划线或中划线。

    企业项目

    所属的企业项目。

    • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
    • 如果在全局页面已选择企业项目,则此处灰化不可选。
      说明:

      企业项目功能当前受限开放,如有需要请联系工程师为您开放。

    描述

    模板的描述信息,最多可输入1024个字符。

  5. 为模板添加监控的云服务及告警规则。

    1. 从下拉列表选择需要新增告警规则的云服务。
    2. 单击云服务名称页签,为对应云服务新增告警规则,详细的新增方式请参见表2
      表2 为云服务新增告警规则

      云服务名称

      告警规则类型

      新增方式

      FunctionGraph、DRS、RDS、NAT、VPC、DCS、CSS、DC、CBR、DMS、ELB、EVS、OBS、DDS、WAF

      指标告警规则

      1. 单击“新增阈值告警规则”。
      2. 在弹出的“创建规则”对话框中设置规则名称、指标数据和告警条件等信息,设置方法请参见按全量指标创建指标告警规则
      3. 设置完成,单击“确定”。

      CCEFromProm

      事件告警规则

      请参见6

      PromQL告警规则

      请参见7

  6. (可选)为CCEFromProm服务新增事件告警规则。

    1. 选择“新增告警规则 > 新增事件告警规则”。
    2. 在弹出的“创建规则”对话框中设置规则名称、事件细则信息。具体的参数说明请参见表3
      • 单击“新增事件”可多次添加事件,并为事件设置触发方式和告警级别等信息。
      • 选择多个事件的场景下,单击“批量编辑”,可为当前选择的所有事件批量设置告警条件。
      • 在事件细则信息后单击,可快速复制对应行的事件细则信息,并根据需要修改。
      表3 事件细则填写说明

      参数名称

      填写说明

      规则名称

      最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入下划线或中划线。

      事件名称

      请从下拉列表中选择,系统默认按选择全部事件处理。

      触发方式

      事件类告警的触发方式。

      • 累计触发:某个监控周期内达到累计次数则触发告警,按照设置的频率发送对应的事件告警通知。

        例如,设置事件名称为“数据卷扩容失败”,监控周期为“20分钟”,累计次数为“3”,频率为“每5分钟”,则表示20分钟内累计3次发生数据卷扩容失败事件,则每5分钟发送一次告警通知直到告警被清除。

      • 立即触发:满足筛选条件立即触发告警。

      告警级别

      事件告警的级别,包括:紧急、重要、次要、提示。

    3. 设置完成,单击“确定”。

  7. (可选)为CCEFromProm服务新增PromQL告警规则。

    1. 选择“新增告警规则 > 新增PromQL告警规则”。
    2. 在弹出的“创建规则”对话框中设置规则名称、默认规则、告警级别等信息。具体的参数说明请参见表4
      表4 PromQL告警规则填写说明

      参数名称

      填写说明

      规则名称

      最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入下划线或中划线。

      默认规则

      根据普罗语句生成指标告警的检测规则。系统提供自定义输入和通过CCE模板填充两种输入方式:

      • 自定义输入:已知指标的名称、IP等信息,且对普罗语句格式较了解时,在下拉列表中选择“自定义”,在下方的“告警规则详情”文本框中手动输入相关的普罗格式命令行。
      • 通过CCE模板填充:不确定指标信息或对普罗格式不了解时,可采用系统自动填充方式。在下拉列表中选择“CCEFromProm”,单击“请选择默认模板”,从默认提供的CCE模板中选择合适的模板,系统会根据选择的模板自动填充相关指标的普罗格式命令行。

      命令行输入的详细说明请参见普罗语句说明

      告警级别

      指标告警的级别,包括:紧急、重要、次要、提示。

      维度变量

      指标监控的维度,根据用户设置的普罗语句自动生成。

      持续时长

      连续多长时间满足告警条件后,触发指标告警。例如,设置持续时长为“2分钟”,则表示连续2分钟满足默认规则的条件,触发指标告警。

      高级设置

      检查频率

      根据设置的频率对指标数据查询和分析结果进行检查。

      • XX小时:间隔XX小时检查一次查询和分析结果。
      • XX分钟:间隔XX分钟检查一次查询和分析结果。

      告警标签

      为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。

      根据用户输入的普罗语句自动生成,支持用户自定义修改。单击可添加多条告警标签。详细说明请参见标签和标注

      告警标注

      单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。详细说明请参见标签和标注

      通知内容

      发送告警通知的内容,根据用户输入的普罗语句自动生成。

    3. 设置完成,单击“确定”。

  8. 单击“确定”,完成告警模板创建。
  9. (可选)在弹出的“告警模板关联到Prometheus实例或集群”对话框中设置告警模板需要关联的Prometheus实例或集群,详细的参数说明请参见表5,设置完成单击“确定”。

    表5 告警模板关联参数填写说明

    参数名称

    参数说明

    Prometheus实例

    可选参数,如果5.a选择的云服务中包含除“CCEFromProm”外的其他服务,则显示该参数。

    下拉列表中显示当前用户账号下的所有云服务类型Prometheus实例,请从下拉列表中选择需要关联的Prometheus实例。

    集群

    可选参数,如果5.a选择的云服务中包含“CCEFromProm”服务,则显示该参数。

    下拉列表中显示当前用户账号下的所有CCE集群,请从下拉列表中选择需要关联的CCE集群。

    通知场景

    设置发送告警通知的场景。

    • 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
    • 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。

    告警方式

    • 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则

      通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。

      启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则

    • 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。

      选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则

  10. 创建成功的告警模板默认会显示到“自定义模板”页签下。

    只要资源或指标满足告警模板中设置的告警条件,则会触发相关告警。您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。同时,系统会以邮件、短信等方式发送告警通知给指定人员。

更多告警模板操作

告警模板创建完成后,您还可以执行表6中的操作。

表6 相关操作

操作

说明

查看告警模板

在模板列表中,可查看模板规则集名称、规则数、关联集群、企业项目等信息。

将告警模板关联到Prometheus实例或集群

单击“操作”列的,详细操作请参见将告警模板关联到Prometheus实例或集群

修改告警模板

单击“操作”列的,并选择“编辑”,详细操作请参见创建告警模板

复制告警模板

单击“操作”列的

删除告警模板

  • 删除一个告警模板:单击“操作”列的,并选择“删除”。
  • 删除一个或多个告警模板:选中一个或多个告警模板前的复选框,在弹出框单击“删除”。

搜索告警模板

在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。

查看通过模板创建的告警规则

在左侧导航栏中选择“告警管理 > 告警规则”,在告警规则列表上方的搜索框中输入模板名称关键字,单击后显示匹配对象。如果事先为告警模板关联过Prometheus实例或集群,也可按关联的Prometheus实例或集群名称搜索查看对应的告警规则。

查看告警

在已设的监控周期内,当某个资源或资源的指标数据满足告警条件时,产生对应的告警。

可在左侧导航栏中选择“告警管理 > 告警列表”,在“告警”页签下查看该告警,具体请参见查看告警

查看事件

在已设的监控周期内,当某个资源没有指标数据上报时,会产生一条数据不足的事件。

可在左侧导航栏中选择“告警管理 > 告警列表”,在“事件”页签下查看该事件,具体请参见查看事件