创建告警规则和通知
当您需要监控各云服务资源的使用情况或云服务资源的关键操作时,可以创建告警规则。告警规则添加完成后,当监控指标触发设定的阈值或者指定的事件发生时,云监控服务会在第一时间通过消息通知服务实时告知您云上资源异常,以免因此造成业务损失。
本章节介绍如何创建告警规则。
“告警通知”功能触发产生的告警消息由消息通知服务SMN发送,会根据告警内容长度、告警通知频率进行收费,具体费用请参考产品价格说明。
前提条件
创建告警规则
- 登录云监控服务管理控制台。
- 选择“告警 > 告警规则”。
- 单击“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示配置参数。
告警规则的基本信息参数说明
|
参数 |
参数说明 |
|---|---|
|
名称 |
告警规则的名称。系统会随机自动生成一个名称,用户也可以自定义设置。只能由中文、英文字母、数字、下划线、中划线组成,且长度不能超过128位。 |
|
描述 |
告警规则描述信息,长度不能超过256位,非必填项。 |
告警内容参数说明
告警类型不同,支持配置的告警内容参数也会有所不同,请根据所选的告警类型查看相应的参数说明。
当告警类型选择“指标”时,您可以根据以下参数说明配置告警内容。
|
参数 |
参数说明 |
取值样例 |
|---|---|---|
|
云产品 |
告警规则监控的服务名称。 支持的云产品以及云产品对应的监控指标说明,请参见云产品监控指标。 |
弹性云服务器-云服务器 |
|
资源层级 |
监控对象的资源层级,可选择云产品或子维度。推荐选择云产品。 以弹性云服务器ECS为例:用户购买了云产品(ECS虚拟机),根据指标划分了多个子维度(包含磁盘、挂载点、进程等)。关于维度的说明请参见维度。
说明:
当资源层级选择云产品时,单条告警规则支持跨子维度指标(如磁盘使用率、CPU使用率),当资源层级选择子维度时,单条告警规则不支持跨子维度指标。 |
云产品 |
|
监控范围 |
告警规则适用的资源范围。支持选择全部资源、资源分组或指定资源。
|
指定资源 |
|
分组 |
当监控范围选择资源分组时,需要选择分组。若当前已有的资源分组不满足使用条件时,可以单击“创建资源分组”进行创建。 在分组下拉框中选择资源分组名称后,可单击“查看组内资源详情”查看选择分组内的资源信息。告警规则配置完成后,不支持修改分组。
说明:
若资源分组中包含EVS资源,且资源类型为“云服务器实例ID-volume-卷ID”,创建告警规则后,该实例暂不支持上报监控数据,因此无法触发告警。 |
- |
|
监控对象 |
当监控范围选择指定资源时,需要选择告警规则的监控对象。 单击“选择指定资源”,在页面右侧的资源列表中选择需要监控的资源。 |
- |
|
条件类型 |
针对弹性云服务器,您可以选择静态阈值和动态阈值。当前仅在华南-广州上线。
|
静态阈值 |
|
触发规则 |
选择配置告警策略的方式,支持选择关联模板和自定义创建两种方式。
|
自定义创建 |
|
模板 |
当触发规则为关联模板时,需要选择导入的模板。 您可以选择系统预置的默认告警模板,或者选择自定义模板。
说明:
一个告警模板可能包含多个云产品或同一个云产品不同维度的告警策略,在创建告警规则时,根据资源层级的不同会有所差异:
|
- |
|
告警策略 |
当触发规则选择“自定义创建”时,需要设置触发告警规则的告警策略。单条告警规则内最多可添加50个告警策略,可以选择满足“任意”策略或者“满足”所有策略则发送告警。更多告警策略参数介绍请参见配置指标类告警策略。 您可以自定义选择告警策略参数,也可以勾选“引用模板”并选择告警模板,根据修改告警策略。修改告警策略时,不会修改告警模板中的告警策略。 是否触发告警取决于连续周期的数据是否达到阈值。例如CPU使用率监控周期为5分钟,连续三个周期平均值≥80%,则触发重要级别的告警。 |
- |
|
操作 |
当存在多条告警策略时,可单击“删除”,删除该条告警策略。 |
删除 |
当告警类型选择“事件”时,您可以根据以下参数说明配置告警内容。
|
参数 |
参数说明 |
取值样例 |
|---|---|---|
|
事件类型 |
当告警类型选择事件时,需要选择事件类型,可选择系统事件或自定义事件。各云服务支持的事件请参考事件监控支持的事件说明。 |
系统事件 |
|
事件来源 |
当告警类型选择事件时,需要设置事件来源。
|
弹性云服务器 |
|
监控范围 |
告警规则适用的资源范围。
说明:
当事件类型为系统事件时,支持配置监控范围。目前只有DDS、RDS、DCS3个服务的事件类告警的监控范围支持选择资源分组。 |
指定资源 |
|
分组 |
当监控范围选择资源分组时,需要选择分组。若当前已有的资源分组不满足使用条件时,可以单击“创建资源分组”进行创建。 在分组下拉框中选择资源分组名称后,可单击“查看组内资源详情”查看选择分组内的资源信息。告警规则配置完成后,不支持修改分组。 |
- |
|
监控对象 |
当监控范围选择指定资源时,需要选择告警规则的监控对象。 单击“选择指定资源”,在页面右侧的资源列表中选择需要监控的资源。 |
- |
|
触发规则 |
选择配置告警策略的方式,当事件类型选择系统事件时,支持选择关联模板和自定义创建两种方式,当事件类型选择自定义事件时,只支持自定义创建。
|
自定义创建 |
|
模板 |
当触发规则为关联模板时,需要选择导入的模板。 您可以选择系统预置的默认告警模板,或者选择自定义模板。
说明:
一个告警模板可能包含多个云产品或同一个云产品不同维度的告警策略,在创建告警规则时,根据资源层级的不同会有所差异:
|
- |
|
告警策略 |
当触发规则选择“自定义创建”时,需要设置触发告警规则的告警策略。单条告警规则内最多可添加50个告警策略,可以选择满足“任意”策略或者“满足”所有策略则发送告警。更多告警策略参数介绍请参见配置事件类告警策略。 您可以自定义选择告警策略参数,也可以勾选“引用模板”并选择告警模板,根据修改告警策略。修改告警策略时,不会修改告警模板中的告警策略。 触发告警具体的事件为一个瞬间的事件。例如重启虚拟机,则触发告警。 |
- |
|
操作 |
当存在多条告警策略时,可单击“删除”,删除该条告警策略。 |
删除 |
当告警类型选择“广域网质量”时,您可以根据以下参数说明配置告警内容。
|
参数 |
参数说明 |
取值样例 |
|---|---|---|
|
维度 |
一个任务中会有多个探测点到目标地址的监控数据,可以按照选择的维度聚合监控数据。 |
任务 |
|
探测协议 |
当告警类型选择广域网质量时,需要选择探测协议。可针对四种协议进行监控:HTTP/HTTPS、PING、TCP、UDP。 |
HTTP/HTTPS |
|
监控范围 |
告警规则适用的资源范围,只支持选择指定资源。 |
指定资源 |
|
监控对象 |
当监控范围选择指定资源时,需要选择告警规则的监控对象。 单击“选择指定资源”,在页面右侧的资源列表中选择需要监控的资源。 |
- |
|
触发规则 |
选择配置告警策略的方式,只支持自定义创建。 |
自定义创建 |
|
告警策略 |
设置触发告警规则的告警策略。单条告警规则内最多可添加50个告警策略,可以选择满足“任意”策略或者“满足”所有策略则发送告警。更多告警策略参数介绍请参见配置指标类告警策略。 是否触发告警取决于连续周期的数据是否达到阈值。例如HTTP响应时间平均值连续3次≥3000ms,则触发告警。 |
- |
|
操作 |
当存在多条告警策略时,可单击“删除”,删除该条告警策略。 |
删除 |
告警通知参数说明
如果在告警规则中开启了告警通知却无法收到通知消息,请参阅向主题推送消息后,订阅者为什么没有收到消息?进行排查。
|
参数 |
参数说明 |
取值样例 |
|---|---|---|
|
发送通知 |
通过开关按钮配置是否发告警通知,支持通过短信、邮件、语音通知、HTTP、HTTPS、FunctionGraph(函数)、FunctionGraph(工作流)、企业微信、钉钉、飞书或Welink等方式通知用户。默认开启。 |
开启 |
|
通知方式 |
发送告警通知的通知方式,根据需要选择其中一种通知方式。支持选择通知策略、通知组或主题订阅的方式。
说明:
CES的告警通知依赖SMN服务,如果SMN服务内部处理延迟时间比较大,可能会导致用户收到的告警有延迟。 |
通知组 |
|
通知策略 |
当通知方式选择通知策略时,需要选择告警通知的策略。通知策略是包含通知组选择、生效时间、通知内容模板等参数的组合编排。创建通知策略请参见创建/修改/删除通知策略。 |
- |
|
通知组 |
当通知方式选择通知组时,需要选择发送告警通知的通知组。创建通知组请参见创建通知对象/通知组。 |
- |
|
通知对象 |
当通知方式选择主题订阅时,需要选择发送告警通知的对象,可选择云账号联系人或主题。若主题的显示名有值,则展示格式为:主题名称(显示名),并且支持通过主题名或显示名进行搜索。若主题未设置显示名则只展示主题名称。 |
云账号联系人 |
|
通知内容模板 |
当通知方式选择通知组或主题订阅时,需要选择发送告警通知时的内容模板,支持选择已有模板或创建通知内容模板。
说明:
部分云服务暂时不支持资源名称、企业项目、资源标签、私网IP和公网IP字段,如果选择系统模板作为通知内容模板,发送告警通知时将不会显示这些字段。 |
- |
|
生效时间 |
当通知方式选择通知组或主题订阅时,需要设置生效时间。 该告警仅在生效时间段发送通知消息。 如生效时间为08:00-20:00,当监控指标触发设定的阈值或者指定的事件发生时仅在08:00-20:00发送通知消息。 |
08:00-20:00 |
|
时区 |
告警生效时间的时区,默认为客户端浏览器所在时区,支持配置。 |
(GMT+08:00) 北京,重庆,香港特别行政区,乌鲁木齐,吉隆坡,新加坡,珀斯,台北,伊尔库茨克,乌兰巴托 |
|
触发条件 |
当通知方式选择通知组或主题订阅时,需要设置触发条件。
|
出现告警 |
高级配置参数说明
|
参数 |
参数说明 |
|---|---|
|
归属企业项目 |
告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。创建企业项目请参考:创建企业项目。 |
|
标签 |
标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。建议在TMS中创建预定义标签。创建预定义标签请参考:创建预定义标签。 如您的组织已经设定云监控的相关标签策略,则需按照标签策略规则为告警规则添加标签。标签如果不符合标签策略的规则,则可能会导致告警规则创建失败,请联系组织管理员了解标签策略详情。
|
|
无数据处理方法 |
当告警类型选择指标或广域网质量时,支持配置是否产生无数据告警,默认勾选。勾选该参数后,当告警规则中配置的指标连续三个小时未上报监控数据时,会产生数据不足的告警记录。 |
参考信息
当告警通知方式选择通知策略时,并且通知策略中的通知内容模板为系统模板,通过消息通知服务推送的告警内容格式非JSON格式,如果需要JSON格式的告警内容,则需要在通知策略中关联渠道类型为HTTP/HTTPS、数据格式为JSON的通知内容模板。具体操作请参见创建/删除/复制/修改通知内容模板和创建/修改/删除通知策略。
当告警通知方式选择通知组或者主题订阅,并且通知内容模板选择系统模板时,通过消息通知服务推送的告警内容格式是固定的,不支持自定义JSON格式的告警内容。相关告警字段如表2所示。
以下表格中的告警字段为通用字段,若存在特殊字段,请联系技术支持人员。
|
参数 |
说明 |
|---|---|
|
message_type |
取值为alarm。 |
|
alarm_id |
告警规则ID。 |
|
alarm_name |
告警规则名称。 |
|
alarm_status |
告警状态。 取值范围:
|
|
time |
告警触发时间。 |
|
namespace |
服务的命名空间。 格式为service.item;service和item必须是字符串,必须以字母开头。 |
|
metric_name |
监控指标名称。 |
|
dimension |
|
|
period |
监控数据粒度。 取值范围:
|
|
filter |
数据聚合方式,支持的聚合方式如下:
|
|
comparison_operator |
告警阈值的比较条件,可以是>、=、<、>=、<=。 |
|
value |
告警阈值,取值范围[0, Number.MAX_VALUE],Number.MAX_VALUE值为1.7976931348623157e+108。 |
|
unit |
数据的单位,最大长度为32位。 |
|
count |
触发告警的连续发生次数,取值范围[1, 5]。 |
|
alarmValue |
|
|
sms_content |
短信发送内容。 |
|
template_variable |
模板所需变量。详细参数说明参见表3。 |
|
参数 |
说明 |
|---|---|
|
AccountName |
账户名。 |
|
Namespace |
服务名称。 |
|
DimensionName |
监控维度名称。 |
|
MetricName |
监控指标名称。 |
|
IsAlarm |
是否发生告警。
|
|
IsCycleTrigger |
是否持续触发告警。
|
|
AlarmLevel |
告警级别,取值有:紧急、重要、次要、提示。 |
|
Region |
Region名称。 |
|
ResourceId |
资源ID。 |
|
CurrentData |
当前值。 |
|
AlarmTime |
告警时间。 |
|
DataPoint |
告警发生触发的时间的数值。 |
|
AlarmRuleName |
告警规则名称。 |
|
AlarmId |
告警ID。 |
|
AlarmDesc |
告警描述。 |
|
MonitoringRange |
告警范围。 取值范围:
|
|
Filter |
数据聚合方式,支持的聚合方式如下:
|
|
ComparisonOperator |
告警阈值的比较条件,可以是>、=、<、>=、<=。 |
|
Value |
告警阈值,取值范围[0, Number.MAX_VALUE],Number.MAX_VALUE值为1.7976931348623157e+108。 |
|
Unit |
数据的单位,最大长度为32位。 |
|
Count |
触发告警的连续发生次数,取值范围[1, 5]。 |
|
EventContent |
事件监控的额外信息。 |