创建告警规则和通知
本章节指导用户如何创建告警规则。
创建告警规则
- 登录管理控制台。
- 单击“服务列表 > 云监控服务”。
- 选择“告警 > 告警规则”。
- 单击“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示配置参数。
- 根据界面提示,配置告警规则的基本信息。
- 选择监控对象,配置告警内容参数。
表2 配置告警内容 参数
参数说明
取值样例
告警类型
告警规则适用的告警类型,可选择指标或者事件告警。
指标
资源类型
配置告警规则监控的服务名称。
弹性云服务器
维度
用于指定告警规则对应指标的维度名称。
云服务器
监控范围
告警规则适用的资源范围,可选择全部资源、资源分组或指定资源。
说明:- 选择“全部资源”时,则任何实例满足告警策略时,都会发送告警通知,同时新购的相同类型相同维度的资源将自动绑定到当前的告警规则。
- 选择“资源分组”时,该分组下任何资源满足告警策略时,都会触发告警通知。
- 选择“指定资源”时,勾选具体的监控对象,单击将监控对象同步到右侧对话框。
全部资源
分组
当监控范围为资源分组时需配置此参数。
-
监控对象
当监控范围为指定资源时需配置此参数。
条件类型
针对弹性云服务器,您可以选择静态阈值和动态阈值。当前仅在华南-广州上线。
- 静态阈值:指告警触发规则设置成固定的阈值,如果指标达到设置的阈值,则触发告警。
- 动态阈值:指告警触发阈值是根据智能计算指标的历史数据预测指标的阈值,若实际值偏离预测值,则触发告警。
静态阈值
触发规则
根据需要可选择关联模板、导入已有模板或自定义创建。
说明:选择关联模板后,所关联模板内容修改后,该告警规则中所包含策略也会跟随修改。
自定义创建
模板
选择需要导入的模板。
您可以选择系统预置的默认告警模板,或者选择自定义模板。
-
告警策略
触发告警规则的告警策略。
当资源类型选择站点监控、日志监控、自定义监控、具体的云服务时,是否触发告警取决于连续周期的数据是否达到阈值。例如CPU使用率监控周期为5分钟,连续三个周期平均值≥80%,则触发告警。
当资源类型选择事件监控时,触发告警具体的事件为一个瞬间的事件。例如运行状态异常,则触发告警。详情请参见告警策略。
说明:告警规则内最多可添加50条告警策略,若其中一条告警策略达到条件都会触发告警。
-
告警级别
根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。
重要
- 根据界面提示,配置告警通知参数。
图1 配置告警通知
表3 配置告警通知 参数
参数说明
发送通知
配置是否发送邮件、短信、HTTP和HTTPS通知用户。
通知方式
根据需要可选择通知组或主题订阅两种方式。
通知组
需要发送告警通知的通知组。创建通知组请参见创建通知对象/通知组。
通知对象
需要发送告警通知的对象,可选择云账号联系人或主题名称。
生效时间
该告警仅在生效时间段发送通知消息,非生效时段则在隔日生效时段发送通知消息。
如生效时间为08:00-20:00,则该告警规则仅在08:00-20:00发送通知消息。
触发条件
可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
“告警通知”功能触发产生的告警消息由消息通知服务SMN发送,可能产生少量费用,具体费用请参考产品价格说明。
- 根据界面提示,配置归属企业项目和标签。
图2 高级配置
- 配置完成后,单击“立即创建”,完成告警规则的创建。
告警规则添加完成后,当监控指标触发设定的阈值时,云监控服务会在第一时间通过消息通知服务实时告知您云上资源异常,以免因此造成业务损失。
您可以通过单击“查看监控图表”或 来查看近期监控告警。
参考信息
目前通过消息通知服务推送的告警内容格式是固定的,不支持自定义JSON格式的告警内容。相关告警字段如表5所示。
以下表格中的告警字段为通用字段,若存在特殊字段,请联系技术支持。
参数 |
说明 |
---|---|
message_type |
取值为alarm。 |
alarm_id |
告警规则ID。 |
alarm_name |
告警规则名称。 |
alarm_status |
告警状态。 取值范围:
|
time |
告警触发时间。 |
namespace |
服务的命名空间。 格式为service.item;service和item必须是字符串,必须以字母开头。 |
metric_name |
监控指标名称。 |
dimension |
|
period |
监控数据粒度。 取值范围:
|
filter |
数据聚合方式,支持的聚合方式如下:
|
comparison_operator |
告警阈值的比较条件,可以是>、=、<、>=、<=。 |
value |
告警阈值,取值范围[0, Number.MAX_VALUE],Number.MAX_VALUE值为1.7976931348623157e+108。 |
unit |
数据的单位,最大长度为32位。 |
count |
触发告警的连续发生次数,取值范围[1, 5] |
alarmValue |
|
sms_content |
短信发送内容。 |
template_variable |
模板所需变量。详细参数说明参见表6。 |
参数 |
说明 |
---|---|
AccountName |
账户名。 |
Namespace |
服务名称。 |
DimensionName |
监控维度名称。 |
MetricName |
监控指标名称。 |
IsAlarm |
是否发生告警。
|
IsCycleTrigger |
是否持续触发告警。
|
AlarmLevel |
告警级别,取值有:紧急、重要、次要、提示。 |
Region |
Region名称。 |
ResourceId |
资源ID。 |
CurrentData |
当前值。 |
AlarmTime |
告警时间。 |
DataPoint |
告警发生触发的时间的数值。 |
AlarmRuleName |
告警规则名称。 |
AlarmId |
告警ID。 |
AlarmDesc |
告警描述。 |
MonitoringRange |
告警范围。 取值范围:
|
Filter |
数据聚合方式,支持的聚合方式如下:
|
ComparisonOperator |
告警阈值的比较条件,可以是>、=、<、>=、<=。 |
Value |
告警阈值,取值范围[0, Number.MAX_VALUE],Number.MAX_VALUE值为1.7976931348623157e+108。 |
Unit |
数据的单位,最大长度为32位。 |
Count |
触发告警的连续发生次数,取值范围[1, 5] |
EventContent |
事件监控的额外信息。 |