更新时间:2024-04-19 GMT+08:00
分享

创建告警规则和通知

本章节指导用户如何创建告警规则。

创建告警规则

  1. 登录管理控制台。
  2. 单击“服务列表 > 云监控服务”。
  3. 选择“告警 > 告警规则”。
  4. 单击“创建告警规则”。
  5. 在“创建告警规则”界面,根据界面提示配置参数。
    1. 根据界面提示,配置告警规则的基本信息。
      表1 配置规则信息

      参数

      参数说明

      名称

      系统会随机产生一个名称,用户也可以进行修改。

      取值样例:alarm-b6al

      描述

      告警规则描述(此参数非必填项)。

    2. 选择监控对象,配置告警内容参数。
      表2 配置告警内容

      参数

      参数说明

      取值样例

      告警类型

      告警规则适用的告警类型,可选择指标或者事件告警。

      指标

      资源类型

      配置告警规则监控的服务名称。

      弹性云服务器

      维度

      用于指定告警规则对应指标的维度名称。

      云服务器

      监控范围

      告警规则适用的资源范围,可选择全部资源、资源分组或指定资源。

      说明:
      • 选择“全部资源”时,则任何实例满足告警策略时,都会发送告警通知,同时新购的相同类型相同维度的资源将自动绑定到当前的告警规则。
      • 选择“资源分组”时,该分组下任何资源满足告警策略时,都会触发告警通知。
      • 选择“指定资源”时,勾选具体的监控对象,单击将监控对象同步到右侧对话框。

      全部资源

      分组

      当监控范围为资源分组时需配置此参数。

      -

      监控对象

      当监控范围为指定资源时需配置此参数。

        

      条件类型

      针对弹性云服务器,您可以选择静态阈值和动态阈值。当前仅在华南-广州上线。

      • 静态阈值:指告警触发规则设置成固定的阈值,如果指标达到设置的阈值,则触发告警。
      • 动态阈值:指告警触发阈值是根据智能计算指标的历史数据预测指标的阈值,若实际值偏离预测值,则触发告警。

      静态阈值

      触发规则

      根据需要可选择关联模板、导入已有模板或自定义创建。

      说明:

      选择关联模板后,所关联模板内容修改后,该告警规则中所包含策略也会跟随修改。

      自定义创建

      模板

      选择需要导入的模板。

      您可以选择系统预置的默认告警模板,或者选择自定义模板。

      -

      告警策略

      触发告警规则的告警策略。

      当资源类型选择站点监控、日志监控、自定义监控、具体的云服务时,是否触发告警取决于连续周期的数据是否达到阈值。例如CPU使用率监控周期为5分钟,连续三个周期平均值≥80%,则触发告警。

      当资源类型选择事件监控时,触发告警具体的事件为一个瞬间的事件。例如运行状态异常,则触发告警。详情请参见告警策略

      说明:

      告警规则内最多可添加50条告警策略,若其中一条告警策略达到条件都会触发告警。

      -

      告警级别

      根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。

      重要

    3. 根据界面提示,配置告警通知参数。
      图1 配置告警通知
      表3 配置告警通知

      参数

      参数说明

      发送通知

      配置是否发送邮件、短信、HTTP和HTTPS通知用户。

      通知方式

      根据需要可选择通知组或主题订阅两种方式。

      通知组

      需要发送告警通知的通知组。创建通知组请参见创建通知对象/通知组

      通知对象

      需要发送告警通知的对象,可选择云账号联系人或主题名称。

      • 云账号联系人为注册时的手机和邮箱。
      • 主题是消息发布或客户端订阅通知的特定事件类型,若此处没有需要的主题则需先创建主题并添加订阅,创建主题并添加订阅请参见创建主题添加订阅

      生效时间

      该告警仅在生效时间段发送通知消息,非生效时段则在隔日生效时段发送通知消息。

      如生效时间为08:00-20:00,则该告警规则仅在08:00-20:00发送通知消息。

      触发条件

      可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。

      “告警通知”功能触发产生的告警消息由消息通知服务SMN发送,可能产生少量费用,具体费用请参考产品价格说明

    4. 根据界面提示,配置归属企业项目和标签。
      图2 高级配置
      表4 配置规则信息

      参数

      参数说明

      归属企业项目

      告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。创建企业项目请参考:创建企业项目

      标签

      标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。建议在TMS中创建预定义标签。创建预定义标签请参考:创建预定义标签

      如您的组织已经设定云监控的相关标签策略,则需按照标签策略规则为告警规则添加标签。标签如果不符合标签策略的规则,则可能会导致告警规则创建失败,请联系组织管理员了解标签策略详情。

      • 键的长度最大128字符,值的长度最大225字符。
      • 最多可创建20个标签。
    5. 配置完成后,单击“立即创建”,完成告警规则的创建。

告警规则添加完成后,当监控指标触发设定的阈值时,云监控服务会在第一时间通过消息通知服务实时告知您云上资源异常,以免因此造成业务损失。

您可以通过单击“查看监控图表”监控资源详情 > 查看监控图表来查看近期监控告警。

参考信息

目前通过消息通知服务推送的告警内容格式是固定的,不支持自定义JSON格式的告警内容。相关告警字段如表5所示。

以下表格中的告警字段为通用字段,若存在特殊字段,请联系技术支持。

表5 告警字段

参数

说明

message_type

取值为alarm。

alarm_id

告警规则ID。

alarm_name

告警规则名称。

alarm_status

告警状态。

取值范围:

  • ok:正常
  • alarm:告警

time

告警触发时间。

namespace

服务的命名空间。

格式为service.item;service和item必须是字符串,必须以字母开头。

metric_name

监控指标名称。

dimension

  • name:监控维度名称,例如弹性云服务器的维度为instance_id ,必须以字母开头,只能包含0-9/a-z/A-Z/_/-,长度最短为1,最大为32。
  • value:维度取值,例如弹性云服务器的ID。 必须以字母或数字开头,只能包含0-9/a-z/A-Z/_/-,长度最短为1,最大为256。

period

监控数据粒度。

取值范围:

  • 1:实时数据
  • 300:5分钟粒度
  • 1200:20分钟粒度
  • 3600:1小时粒度
  • 14400:4小时粒度
  • 86400:1天粒度

filter

数据聚合方式,支持的聚合方式如下:

  • average:聚合周期内指标数据的平均值。
  • max:聚合周期内指标数据的最大值。
  • min:聚合周期内指标数据的最小值。
  • sum:聚合周期内指标数据的求和值。
  • variance:聚合周期内指标数据的方差。

comparison_operator

告警阈值的比较条件,可以是>、=、<、>=、<=。

value

告警阈值,取值范围[0, Number.MAX_VALUE],Number.MAX_VALUE值为1.7976931348623157e+108。

unit

数据的单位,最大长度为32位。

count

触发告警的连续发生次数,取值范围[1, 5]

alarmValue

  • time:数据点时间
  • value:time时间点对应的数值[0, Number.MAX_VALUE]

sms_content

短信发送内容。

template_variable

模板所需变量。详细参数说明参见表6

表6 template_variable参数说明

参数

说明

AccountName

账户名。

Namespace

服务名称。

DimensionName

监控维度名称。

MetricName

监控指标名称。

IsAlarm

是否发生告警。

  • true
  • false

IsCycleTrigger

是否持续触发告警。

  • true
  • false

AlarmLevel

告警级别,取值有:紧急、重要、次要、提示。

Region

Region名称。

ResourceId

资源ID。

CurrentData

当前值。

AlarmTime

告警时间。

DataPoint

告警发生触发的时间的数值。

AlarmRuleName

告警规则名称。

AlarmId

告警ID。

AlarmDesc

告警描述。

MonitoringRange

告警范围。

取值范围:

  • 指定资源
  • 资源分组
  • 全部资源

Filter

数据聚合方式,支持的聚合方式如下:

  • average:聚合周期内指标数据的平均值。
  • max:聚合周期内指标数据的最大值。
  • min:聚合周期内指标数据的最小值。
  • sum:聚合周期内指标数据的求和值。
  • variance:聚合周期内指标数据的方差。

ComparisonOperator

告警阈值的比较条件,可以是>、=、<、>=、<=。

Value

告警阈值,取值范围[0, Number.MAX_VALUE],Number.MAX_VALUE值为1.7976931348623157e+108。

Unit

数据的单位,最大长度为32位。

Count

触发告警的连续发生次数,取值范围[1, 5]

EventContent

事件监控的额外信息。

分享:

    相关文档

    相关产品