告警模板
告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。
注意事项
您最多可创建150个告警模板,如果告警模板数量已达到150个,请删除不需要的告警模板后重新创建。
背景信息
AOM针对所有主机和所有服务的关键指标(包括CPU使用率指标、物理内存使用率指标、主机状态指标、服务状态指标)预置多种默认告警模板,显示在“告警模板”界面的“默认告警模板”页签下,供您选择使用。在默认告警模板所在行,单击“操作”列的,可根据默认告警模板快速自定义告警模板。
创建告警模板
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警管理 > 告警模板”。
- 单击 “创建告警模板”。
- 设置告警模板的基本信息。具体的参数说明如表1所示。
- 为模板添加监控的云服务及告警规则。
- 从下拉列表选择需要新增告警规则的云服务。
- 单击云服务名称页签,为对应云服务新增告警规则,详细的新增方式请参见表2。
图1 创建云服务的告警规则
表2 为云服务新增告警规则 云服务名称
告警规则类型
新增方式
FunctionGraph、DRS、RDS、NAT、VPC、DCS、CSS、DC、CBR、DMS、ELB、EVS、OBS、DDS、WAF
指标告警规则
- 单击“新增阈值告警规则”。
- 在弹出的“创建规则”对话框中设置规则名称、指标数据和告警条件等信息,设置方法请参见按全量指标创建指标告警规则中的5.d和6。
- 设置完成,单击“确定”。
CCEFromProm
事件告警规则
请参见6。
PromQL告警规则
请参见7。
- (可选)为CCEFromProm服务新增事件告警规则。
- 选择“新增告警规则 > 新增事件告警规则”。
- 在弹出的“创建规则”对话框中设置规则名称、事件细则信息。具体的参数说明请参见表3。
- 单击“新增事件”可多次添加事件,并为事件设置触发方式和告警级别等信息。
- 选择多个事件的场景下,单击“批量编辑”,可为当前选择的所有事件批量设置告警条件。
- 在事件细则信息后单击,可快速复制对应行的事件细则信息,并根据需要修改。
图2 新增事件告警规则
- 设置完成,单击“确定”。
- (可选)为CCEFromProm服务新增PromQL告警规则。
- 选择“新增告警规则 > 新增PromQL告警规则”。
- 在弹出的“创建规则”对话框中设置规则名称、默认规则、告警级别等信息。具体的参数说明请参见表4。
图3 新增PromQL告警规则
表4 PromQL告警规则填写说明 参数名称
填写说明
规则名称
最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入下划线或中划线。
默认规则
根据普罗语句生成指标告警的检测规则。系统提供自定义输入和通过CCE模板填充两种输入方式:
- 自定义输入:已知指标的名称、IP等信息,且对普罗语句格式较了解时,在下拉列表中选择“自定义”,在下方的“告警规则详情”文本框中手动输入相关的普罗格式命令行。
- 通过CCE模板填充:不确定指标信息或对普罗格式不了解时,可采用系统自动填充方式。在下拉列表中选择“CCEFromProm”,单击“请选择默认模板”,从默认提供的CCE模板中选择合适的模板,系统会根据选择的模板自动填充相关指标的普罗格式命令行。
说明:单击告警规则详情后的,可以锁定告警规则详情中的内容。锁定后,您可以进行以下操作:
- 单击告警规则详情后的,解除锁定。
- 单击告警规则详情后的,复制普罗语句。
命令行输入的详细说明请参见普罗语句说明。
告警级别
指标告警的级别,包括:- :表示紧急告警。
- :表示重要告警。
- :表示次要告警。
- :表示提示告警。
维度变量
指标监控的维度,根据用户设置的普罗语句自动生成。
持续时长
连续多长时间满足告警条件后,触发指标告警。包括:立即、15秒、30秒、1分钟、2分钟、5分钟、10分钟。例如,设置持续时长为“2分钟”,则表示连续2分钟满足默认规则的条件,触发指标告警。
高级设置
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
- XX小时:间隔XX小时检查一次查询和分析结果。
- XX分钟:间隔XX分钟检查一次查询和分析结果。
- XX秒:间隔XX秒检查一次查询和分析结果。
说明:
检查频率可以设置为15秒或30秒以实现秒级监控。指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。
例如,指标上报周期为15秒,规则检查频率设置为15秒,通知发送耗时为3秒,即可在33秒以内检测到告警并发送告警通知。
告警标签
为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。
根据用户输入的普罗语句自动生成,支持用户自定义修改。单击可添加多条告警标签。详细说明请参见标签和标注。
说明:如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
告警标注
单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。详细说明请参见标签和标注。
通知内容
发送告警通知的内容,根据用户输入的普罗语句自动生成。
- 设置完成,单击“确定”。
- (可选)变量管理。CCEFromProm服务新增PromQL告警规则时,管理变量并应用在告警模板的PromQL中。
- 单击“变量管理”。
- 在弹出的对话框“变量管理”中设置变量与变量值。最多可以新增50个变量。
图4 变量管理
- 设置完成,单击“确定”。
- 单击“确定”,完成告警模板创建。
- (可选)在弹出的“告警模板关联到Prometheus实例或集群”对话框中设置告警模板需要关联的Prometheus实例或集群,详细的参数说明请参见表5,设置完成单击“确定”。
图5 将告警模板关联到Prometheus实例或集群
表5 告警模板关联参数填写说明 参数名称
参数说明
Prometheus实例
可选参数,如果5.a选择的云服务中包含除“CCEFromProm”外的其他服务,则显示该参数。
下拉列表中显示当前用户账号下的所有云服务类型Prometheus实例和多账号聚合实例类型的Prometheus实例,请从下拉列表中选择需要关联的Prometheus实例。
集群
可选参数,如果5.a选择的云服务中包含“CCEFromProm”服务,则显示该参数。
下拉列表中显示当前用户账号下的所有CCE集群,请从下拉列表中选择需要关联的CCE集群。
通知场景
设置发送告警通知的场景。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则
启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则。
说明:所选择告警降噪的分组规则中配置的告警级别、标签等信息需与告警规则中的配置信息匹配,否则分组规则不生效。
- 创建成功的告警模板默认会显示到“自定义模板”页签下。
只要资源或指标满足告警模板中设置的告警条件,则会触发相关告警。您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。同时,系统会以邮件、短信等方式发送告警通知给指定人员。
图6 创建告警模板
导入告警模板
通过导入模板文件可以快速创建告警模板。
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警管理 > 告警模板”。
- 单击“导入告警模板”。
- 在“导入告警模板”弹框中设置信息,具体的参数说明如表6 导入告警模板填写说明所示。设置完成,单击“创建”。
图7 导入告警模板
- 创建成功的告警模板默认会显示到“自定义模板”页签下。
更多告警模板操作
告警模板创建完成后,您还可以执行表7中的操作。
操作 |
说明 |
---|---|
查看告警模板 |
在模板列表中,可查看模板规则集名称、规则数/告警条件数、关联集群、企业项目等信息。 |
将告警模板关联到Prometheus实例或集群 |
单击“操作”列的,详细操作请参见将告警模板关联到Prometheus实例或集群。 |
修改告警模板 |
单击“操作”列的,并选择“编辑”,详细操作请参见创建告警模板。 |
导出自定义告警模板 |
单击“操作”列的,并选择“导出”。 |
复制告警模板 |
单击“操作”列的。 |
删除告警模板 |
|
搜索告警模板 |
在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。 |
查看通过模板创建的告警规则 |
在左侧导航栏中选择“告警管理 > 告警规则”,在告警规则列表上方的搜索框中输入模板名称关键字,单击后显示匹配对象。如果事先为告警模板关联过Prometheus实例或集群,也可按关联的Prometheus实例或集群名称搜索查看对应的告警规则。 |
查看告警 |
在已设的监控周期内,当某个资源或资源的指标数据满足告警条件时,产生对应的告警。 可在左侧导航栏中选择“告警管理 > 告警列表”,在“告警”页签下查看该告警,具体请参见查看告警。 |
查看事件 |
在已设的监控周期内,当某个资源没有指标数据上报时,会产生一条数据不足的事件。 可在左侧导航栏中选择“告警管理 > 告警列表”,在“事件”页签下查看该事件,具体请参见查看事件。 |