更新时间:2024-08-06 GMT+08:00

告警策略

用户可以对服务的监控指标和事件设置告警策略。当监控指标在一定周期内多次触发告警策略的阈值时,系统将向用户发送告警通知。下面将展示如何配置指标类和事件类的告警策略。

配置指标类告警策略

用户可以针对云服务的核心监控指标设置指标告警,在发生异常时及时通知您采取措施。指标类告警策略包括指标名称、指标值类型、连续触发次数、阈值和告警频率五个必要组成部分。您可以根据以下指引配置告警类告警策略。

基本概念

参数

参数说明

取值样例

指标名称

各服务监控指标的名称。

CPU使用率

指标值类型

监控的指标值类型。分为原始值、平均值、最大值、最小值、方差值和求和值6种。

  • 原始值:指监控指标在被处理或转换之前的最初的形式或状态的值。
  • 平均值:指在聚合周期内对原始值进行平均计算出来的值。
  • 最大值:指在聚合周期内原始值中最大的值。
  • 最小值:指在聚合周期内原始值中最小的值。
  • 方差值:指在聚合周期内原始值中各个数据点与其平均值之间的差异程度的值。
  • 求和值:指在聚合周期内原始值相加得到的值。
说明:
  • 用户可根据业务需求选择聚合周期,聚合周期目前最小是5分钟,同时还有20分钟、1小时、4小时、24小时,共5种聚合周期。
  • 当选择聚合周期时,告警通知会延迟,聚合周期为5分钟会延迟告警10-15分钟,聚合周期为20分钟会延迟告警20分钟、聚合周期为1小时会延迟告警1小时20分钟、聚合周期为4小时会延迟告警4小时40分钟、聚合周期为24小时会延迟告警25小时。

原始值

连续触发次数

当告警连续多少次被触发时,发送告警信息。

连续触发次数可选择连续1次、连续2次、连续3次、连续4次、连续5次、连续10次、连续15次、连续30次、连续60次、连续90次、连续120次、连续180次。

连续2次

比较关系

比较检测指标值和阈值的关系。

比较关系分为>、>=、<、<=、=、!=、环比上升、环比下降和环比波动。

说明:
  • 环比上升:监控本次指标上报的数据与上一次指标上报的数据相比出现陡升的情况。
  • 环比下降:监控本次指标上报的数据与上一次指标上报的数据相比出现陡降的情况。
  • 环比波动:监控本次指标上报的数据与上一次指标上报的数据相比出现陡升或陡降的变化情况。

=

阈值

设置告警触发的阈值和单位。

紧急22Byte/s

告警频率

当告警产生时,告警以特定的频率重复通知。

告警频率可设置以下几种方式:

只告警一次、每5分钟告警一次、每10分钟告警一次、每15分钟告警一次、每30分钟告警一次、每1小时告警一次、每3小时告警一次、每6小时告警一次、每12小时告警一次、每1天告警一次。

每5分钟告警一次

配置指标类告警策略示例

例如,指标名称为CPU利用率 、指标值类型为平均值且聚合周期为5分钟、连续触发次数为连续2次,比较关系为= 、阈值为80% 、告警频率为每5分钟告警一次。

表示:每5分钟收集一次 CPU 利用率的平均值数据,若某台云服务器的 CPU 利用率连续2次大于80%则每5分钟触发告警一次。

图1 告警策略

配置事件类告警策略

用户可以针对业务中的各类重要事件或对云资源的操作事件设置事件告警,在发生异常时及时通知您采取措施。事件类告警策略包括事件名称、触发时间周期、触发类型、触发次数和告警频率五个必要组成部分。您可以根据以下指引配置事件类告警策略。

基本概念

参数

参数说明

取值样例

事件名称

各服务监控事件的名称。

开机失败

触发时间周期

触发时间周期的含义是当该事件在5分钟内被累计触发时,向您发送告警信息。

触发时间周期可选择在5分钟内、在20分钟内、在1小时内、在4小时内、在24小时内。

说明:

当触发类型为累计触发时,该参数可选。

在5分钟内

触发类型

触发类型分为触发和累计触发。系统默认为触发。

触发表示当事件发生时,立即发送告警信息。

累计触发表示当事件在触发时间周期内累计触发预设的次数后,才能发生告警信息。

累计触发

触发次数

事件发生在触发时间周期内累计触发的次数。

说明:

当触发类型为累计触发时,该参数可选。

2

告警频率

当告警产生时,告警以特定的频率重复通知。

告警频率可设置以下几种方式:

只告警一次、每5分钟告警一次、每10分钟告警一次、每15分钟告警一次、每30分钟告警一次、每1小时告警一次、每3小时告警一次、每6小时告警一次、每12小时告警一次、每1天告警一次。

说明:

当触发类型为累计触发时,该参数可选。

每5分钟告警一次

配置事件类告警策略示例

例如,事件名称为开机失败 、触发时间周期为在5分钟内,触发类型为累计触发 、触发次数为2、告警频率为每5分钟告警一次。

表示:在5分钟内,某台云服务器开始失败事件累计触发2次则每5分钟触发告警一次。

图2 事件类告警策略