文档首页/ 应用运维管理 AOM/ 最佳实践/ 创建应用性能监控告警规则并发送告警通知
更新时间:2025-08-15 GMT+08:00

创建应用性能监控告警规则并发送告警通知

AOM支持用户创建应用性能监控类型的告警规则,对应用的关键指标进行实时监控和管理,从而保障应用的高性能和稳定性。

应用场景

某电商平台的运维人员希望通过监控应用的关键指标,实时掌握应用的健康状态,从而确保平台的稳定运行和用户体验。

约束与限制

应用性能监控告警规则功能当前仅在亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。

解决方案

  1. 接入Agent:创建APM应用并接入Agent。
  2. 创建应用性能监控告警规则:对应用的关键指标进行监控,实时掌握应用的健康状态。

接入Agent

AOM作为华为云服务可观测性分析统一入口,提供接入中心,支持创建APM应用并接入Agent,来监控应用相关的性能图表或接口性能指标等。

  1. 登录AOM 2.0控制台
  2. 在左侧导航栏中选择“接入中心 > 接入中心”,进入新版接入中心页面。

    如果您进入的是旧版接入中心,需要单击“接入中心”页面右上角“体验新版”进入新版接入中心页面。

  3. 勾选“类型”下的“组件层”左侧复选框,筛选出组件层卡片。
  4. 单击卡片上的“接入调用链(APM)”链接,可快速接入调用链。

    例如此处创建了名称为“apmtest-performance”的应用并接入Agent以供后续操作使用。
    表1 组件层接入AOM

    卡片

    相关操作

    JAVA组件

    获取JAVA应用的链路追踪信息。具体操作请参见:JAVA组件调用链接入(APM)

创建应用性能监控告警规则

  1. 在左侧导航栏中选择“告警中心 > 告警规则”。
  2. 在“Prometheus监控”页签下单击“创建告警规则”。
  3. 设置告警规则基本信息,具体的参数说明如表2所示。

    表2 基本信息填写说明

    参数名称

    说明

    示例

    规则原始名称

    最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入下划线和中划线。

    apm-rule

    规则名称

    规则的名称。最多可输入256个字符,只能包含中文、字母、数字、特殊字符(_-【】),开头、结尾不允许输入中划线、下划线。本示例可不填写。

    -

    企业项目

    所属的企业项目。

    • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
    • 如果在全局页面已选择企业项目,则此处灰化不可选。

    default

    描述

    规则的描述信息,最多可输入1024个字符。本示例可不填写。

    -

  4. 告警规则设置。

    1. “规则类型”选择“应用性能监控”。
    2. “配置方式”为“全量指标”。
    3. 在下拉列表中选择“APM 应用”和“指标类型”。“APM 应用”选择接入Agent中创建的名称为“apmtest-performance”的应用,“指标类型”选择“JVM信息”和“jvm基本信息”。
      图1 指标来源

  5. 设置告警规则的详细信息。具体的参数说明如表3所示。

    此处选择“apm_JVMInfo_info_availableProcessors_ORIGIN”指标。
    表3 告警规则详情填写说明

    参数名称

    参数说明

    示例

    多指标

    按设置的多个指标数据和对应告警条件进行计算,有两种计算方式:

    • 满足全部条件触发:满足以下全部指标判断条件时,触发告警。
    • 满足任意条件触发:满足以下任意指标判断条件时,触发告警。

    满足任意条件触发

    指标

    需要监控的指标。单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。

    apm_JVMInfo_info_availableProcessors_ORIGIN

    条件

    指标监控的维度。创建应用性能监控告警规则时,需要为选择的指标设置“_businessName”指标所属应用、“_appName”指标所属组件、“_envName”指标所属环境三个指标维度。

    _businessName:test-grid

    _appName:apmtest-performance

    _envName:default

    分组条件

    指标数据按指定字段分组聚合,对聚合的结果进行运算。

    不分组

    检测规则

    指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。

    平均值 > 1

    统计周期

    指标数据按照所设置的统计周期进行聚合。

    1分钟

    触发条件

    连续多少个周期满足阈值条件后,触发指标告警。连续周期的取值范围为1-30。当前仅在选择“满足任意条件触发”的判断条件时,显示此参数。

    3

    告警级别

    指标告警的级别。

    (紧急告警)

  6. 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表4

    表4 “高级设置”填写说明

    参数名称

    参数说明

    示例

    检查频率

    根据设置的频率对指标数据查询和分析结果进行检查。

    固定间隔 1 分钟

    告警恢复

    连续多少个周期不满足告警条件,恢复告警。

    1

    无数据处理

    连续周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

    关闭

    告警规则标签

    单击为告警规则添加标签,标签将同步到TMS服务,该标签可以用于搜索过滤、告警降噪分组条件,也可以在消息模板中以$event.metadata.标签名被引用。本示例可不填写。

    -

    告警规则标注

    单击为告警规则添加键值对属性,标注不会同步给TMS标签服务,但是可以用于告警降噪分组条件,也可以在消息模板中以$event.annotations.标注名被引用。本示例可不填写。

    -

  7. 设置告警通知策略。具体参数说明请参见表5

    图2 设置告警通知策略
    表5 告警通知策略填写说明

    参数名称

    参数说明

    示例

    通知场景

    设置发送告警通知的场景。

    • 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
    • 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。

    告警触发时

    告警恢复时

    告警方式

    • 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用通知规则。
    • 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
    • 通知规则:启用通知规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警通知规则无法满足需要,可在下拉列表中单击“新建告警通知规则”添加。设置告警通知规则的操作详见创建AOM告警通知规则

    告警方式:直接告警

    通知频率:只告警一次

    通知规则:01

    通知模板

    发送告警通知的模板。通知模板可以使用变量的方式,变量即维度变量,填写方式${维度}。单击“插入变量符号”,可以新增一个“${}”。

    • 置入变量:鼠标悬浮在“变量预览”下的变量上,单击“置入”,可以在“通知模板”中插入变量。
    • 复制变量:鼠标悬浮在“变量预览”下的变量上,单击“复制”,可以复制变量名称。
    • 查看预置变量:系统提供变量模板。

    ${hostInfo}${envPath}

  8. 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。

    只要某个指标数据满足设置的告警条件时,在告警界面就会生成一条应用性能监控类型告警,您可在左侧导航栏中选择“告警中心 > 告警列表”,在告警列表中查看该告警。只要满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。