创建AOM应用性能监控告警规则
通过创建应用性能监控类型告警规则可对资源的指标设置阈值条件,当指标数据满足阈值条件时产生阈值告警。
约束与限制
- 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用创建应用性能监控告警规则功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见菜单开关。
- 应用性能监控告警规则功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。
- 服务已接入需要的APM应用。
登录APM控制台接入一个APM应用时,系统会自动创建一个APM类型的Prometheus实例并显示在AOM控制台的“Prometheus监控 > 实例列表”界面。
- 系统支持创建的指标告警规则、事件告警规则、应用性能监控告警规则总计不能超过3000条。
- 当前仅华南-广州区域“告警管理”菜单名称更名为“告警中心”,“告警行动规则”菜单名称更名为“告警通知”,“告警行动规则”页签名称更改为“通知规则管理”。
- 使用“多指标”和“满足全部条件触发”的计算方式创建的告警规则,在监控两个及两个以上的指标时,需要同时满足以下条件才会触发告警:
- 指标的指标数据满足设置的检测规则。
- 指标的指标维度中除名称外的其余参数一致。
按全量指标创建告警规则
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警管理 > 告警规则”。当前仅华南-广州区域的菜单路径为“告警中心 > 告警规则”。
- 单击“创建”。当前仅华南-广州区域操作步骤为在“Prometheus监控”页签单击“创建告警规则”。
- 设置告警规则基本信息,具体的参数说明如表1所示。
- 设置告警规则的详细信息。
- 选择“规则类型”为“应用性能监控”。
- 选择指标配置方式为“全量指标”。
- 在下拉列表中选择APM应用。
- 接入方式为增强型探针的APM应用,创建告警规则时需要在下拉列表中选择APM应用和指标类型。
- 接入方式为OpenTelemetry的APM应用,创建告警规则时需要在下拉列表中选择APM应用。
- 设置告警规则详情。具体的参数说明如表2所示。
设置完成后,监控的指标数据以折线图形式显示在告警条件上方,单击每条指标数据前的折线符号可将对应指标数据在当前图表中隐藏。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。
将光标移动到指标数据和对应告警条件后,还可以根据需要执行以下操作:
- 单击告警条件后的
,可将对应行的指标数据在当前图表中隐藏。
- 单击告警条件后的
,可将对应行的指标数据和告警条件转换为Prometheus命令。
- 单击告警条件后的
,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。
- 单击告警条件后的
,可删除对应行指标数据的监控。
表2 告警规则详情填写说明 参数名称
参数说明
多指标
按设置的多个指标数据和对应告警条件进行计算,有两种计算方式:
- 满足以下“全部”指标判断条件时,触发告警。
- 满足以下“任意”指标判断条件时,触发告警。
指标
需要监控的指标。通过“全量指标”方式选择指标时,仅支持英文展示和英文搜索。
单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。
条件
指标监控的维度。在华东-上海一区域创建应用性能监控告警规则时,需要为选择的指标设置“_businessName”指标所属应用、“_appName”指标所属组件、“_envName”指标所属环境三个指标维度。
指标的条件为key:value键值对格式,维度名称可从下拉列表中直接选择,维度值根据匹配方式的不同,设置方式不同:
- 匹配方式为“=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示只监控主机名为“192.168.16.4”的资源。
- 匹配方式为“!=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示监控除主机名为“192.168.16.4”的资源外的其他资源。
- 匹配方式为“=~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示只监控主机名为“192.*”和“172.*”的资源。
- 匹配方式为“!~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示监控除主机名为“192.*”和“172.*”的资源外的其他资源。
正则表达式的输入请参见正则表达式输入说明。
单击
,通过AND、OR关键词可为同一指标设置多个监控条件。
分组条件
指标数据按指定字段分组聚合,对聚合的结果进行运算。包括:不分组、avg by、max by、min by、sum by。例如,分组条件设置为:avg by clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。
检测规则
指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
统计周期
指标数据按照所设置的统计周期进行聚合,包括:1分钟、5分钟、15分钟、1小时。
持续时间
连续多长时间满足告警条件后,触发告警。当前仅在选择“满足全部条件触发”的判断条件时,显示此参数。
持续时间包括:立即、15秒、30秒、1分钟、2分钟、5分钟、10分钟、15分钟、1小时、6小时、12小时。
触发条件
连续多少个周期满足阈值条件后,触发指标告警。连续周期的取值范围为1-30。当前仅在选择“满足任意条件触发”的判断条件时,显示此参数。
例如,设置连续周期为“2”,则表示连续2个周期满足检测规则的条件,触发指标告警。
告警级别
指标告警的级别,包括:
:表示紧急告警。
:表示重要告警。
:表示次要告警。
:表示提示告警。
- 单击告警条件后的
- 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表3。
表3 “高级设置”填写说明 参数名称
参数说明
检查频率
根据设置的频率对指标数据查询和分析结果进行检查。
在告警规则详情中选择“满足全部条件触发”的计算方式时,支持设置检查频率为每分钟、每小时。在告警规则详情中选择“满足任意条件触发”的计算方式时,支持设置检查频率为每小时、每天、每周、固定间隔、CRON。
告警恢复
连续多少个周期不满足告警条件,恢复告警。默认只监控一个周期,最多可监控30个连续周期指标数据。在告警规则详情中选择“满足全部条件触发”的计算方式时,不支持使用告警恢复功能。
例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。默认只监控一个周期,最多可监控5个连续周期指标数据。在告警规则详情中选择“满足全部条件触发”的计算方式时,不支持使用无数据处理功能。
系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。
告警标签
单击
添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。详细说明请参见标签和标注。
如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
告警标注
单击
添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。
详细说明请参见标签和标注。
- 设置告警通知策略。具体参数说明请参见表4。
图1 设置告警通知策略
表4 告警通知策略填写说明 参数名称
参数说明
通知场景
设置发送告警通知的场景。
- 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
- 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。
告警方式
- 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启动告警行动规则(通知规则)。
选择直接告警方式,需要设置是否启用告警行动规则(通知规则)。启用告警行动规则(通知规则)后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则(告警通知规则)无法满足需要,可在下拉列表中单击“新建告警行动规则(告警通知规则)”添加。设置告警行动规则(告警通知规则)的操作详见创建告警行动规则。
- 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。
选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则。所选择告警降噪的分组规则中配置的告警级别、标签等信息需与告警规则中的配置信息匹配,否则分组规则不生效。
通知模板
发送告警通知的模板。通知模板可以使用变量的方式,变量即维度变量,填写方式${维度}。单击“插入变量符号”,可以新增一个“${}”。
- 当前仅在华东-上海一创建应用性能告警规则时,支持设置此参数。
- 置入变量:鼠标悬浮在“变量预览”下的变量上,单击“置入”,可以在“通知模板”中插入变量。
- 复制变量:鼠标悬浮在“变量预览”下的变量上,单击“复制”,可以复制变量名称。
- 查看预制变量:系统提供变量模板,详情请见表5。
表5 变量模板 变量
变量名称
hostInfo
主机信息
envPath
环境信息
region
所属region
ruleName
告警策略名称
apm_JVMInfo_info_arch_ORIGIN
cpu架构
apm_JVMInfo_info_availableProcessors_ORIGIN
处理器个数
apm_JVMInfo_info_classPath_ORIGIN
类路径
apm_JVMInfo_info_fileEncode_ORIGIN
JVM文件编码
apm_JVMInfo_info_inputArguments_ORIGIN
JVM启动参数
apm_JVMInfo_info_javaCollectorVersion_ORIGIN
采集器的版本
apm_JVMInfo_info_javaHome_ORIGIN
javaHome路径
apm_JVMInfo_info_javaLibraryPath_ORIGIN
java类库路径
apm_JVMInfo_info_javaSpecificationVersion_ORIGIN
java规范版本
apm_JVMInfo_info_javaVersion_ORIGIN
java版本
apm_JVMInfo_info_jvm_ORIGIN
模式
apm_JVMInfo_info_name_ORIGIN
服务器和进程名字
apm_JVMInfo_info_osName_ORIGIN
操作系统名称
apm_JVMInfo_info_osVersion_ORIGIN
操作系统版本
apm_JVMInfo_info_pid_ORIGIN
进程号
apm_JVMInfo_info_sdkVersion_ORIGIN
sdk版本
apm_JVMInfo_info_specName_ORIGIN
虚拟机规范的名字
apm_JVMInfo_info_specVendor_ORIGIN
虚拟机规范的制定厂商
apm_JVMInfo_info_specVersion_ORIGIN
规范的版本
apm_JVMInfo_info_startTime_ORIGIN
JVM启动时间
apm_JVMInfo_info_systemLoadAverage_ORIGIN
系统平均load值
apm_JVMInfo_info_uptime_ORIGIN
虚拟机运行的时间
apm_JVMInfo_info_vmName_ORIGIN
虚拟机的名字
apm_JVMInfo_info_vmVendor_ORIGIN
虚拟机的供应商
apm_JVMInfo_info_vmVersion_ORIGIN
虚拟机的版本
- 单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。
单击规则名称前的
,可查看该告警规则的详细信息。在展开的列表中,只要某个指标数据满足设置的告警条件时,在告警界面就会生成一条应用性能监控类型告警,您可在左侧导航栏中选择“告警管理(告警中心) > 告警列表”,在告警列表中查看该告警。只要满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。