告警策略
链路追踪支持为单个组件创建自定义告警策略。
Opentelemetry告警是通过应用运维服务(AOM)创建的,详细操作参见创建Opentelemetry告警。
创建APM告警策略
- 登录管理控制台。
- 单击左侧,选择“管理与监管 > 应用性能管理 APM”,进入APM服务页面。
- 在左侧导航栏选择“链路追踪 > 指标”。
- 在界面左侧树单击对应环境后的,进入告警策略页面。
图1 告警策略页面
- 单击“新建告警策略”,切换至告警策略页签。
- 基础信息
图2 基础信息
表1 告警策略基础信息参数列表 选项
含义
告警策略类型
分“单机”、“聚合”。单机指单实例指标告警,聚合指组件下所有实例聚合指标告警。
策略名称
自定义的名称,不能为空。
只能输入字母,数字,下划线,短横线,汉字。输入长度不能超过512个字符。
告警等级
定义告警等级,分为“轻微”、“严重”。
监控对象
需要监控的链路追踪。
监控类型
选择需要监控的“监控类型”。被选中监控类型的信息,会显示在右侧。
指标集
选择需要监控的“指标集”。被选中指标集的信息,会显示在右侧。
- 告警规则
图3 告警规则
表2 告警策略告警规则参数列表 选项
含义
维度
可选。对于不同指标集细粒度的定义。
指标
对于指标集中某一个指标定义一个或者多个告警规则。
指标:指标集中的某一个指标。例如:监控项:URL 监控;指标集:汇总。则告警规则的指标可选为“错误次数”。
操作符:表示指令应进行什么性质的操作。
阈值:指标集中的某一个指标的阈值。
告警条件
定义告警的触发条件。
A :表示A次采集周期,A的取值范围为数字1-10(次)。
B :满足B次触发告警,B的取值范围为数字1-10(次),且不能大于A。
C :相同告警,在C分钟内,不再发送。C不能小于数字10分钟。
恢复策略
定义告警的恢复条件。
恢复时通知
告警恢复时是否触发额外的通知。
严格模式
当指标有多个对象返回值时,通过此选项可对返回的所有指标做告警表达式异常检测。
例如:一台主机有多核CPU时,CPU单核使用率有多个值cpu_no=0,useage=98;cpu_no=1,useage=99。
- 告警通知
图4 告警通知
表3 告警策略告警通知参数列表 选项
含义
告警通知内容
用户收到的告警详细内容,输入长度不能超过500个字符。
- 当告警规则中的“严格模式”开关打开时,告警通知内容包括“变量”和“循环”两种格式。“严格模式”开关关闭时,仅可以选择“变量”一种格式。
- 告警通知内容,可以自定义或者选采集的指标内容。
- 用户收到的告警详细内容,输入长度不能超过500个字符。
- 当告警规则中的“严格模式”开关打开时,告警通知内容包括“变量”和“循环”两种格式。“严格模式”开关关闭时,仅可以选择“变量”一种格式。
- 告警通知内容,可以自定义或者选择采集的指标内容。
- 选择采集的指标内容:“基础信息”右侧,单击指标名称前,将指标内容易用到告警通知内容框。
选择通知对象
在下拉列表中,选择通知对象。
告警会发送给告警通知,给被选的通知对象。未被选的通知对象,不会发送告警通知。
- 基础信息
- 信息填写完整后,单击“确定”完成告警策略配置。
更多操作
创建Opentelemetry告警
- 创建Opentelemetry应用,并接入探针,详细操作参见OpenTelemetry接入。
- 在左侧导航栏选择“链路追踪 >应用管理”,进入应用管理页,查看新建的Opentelemetry应用。
Opentelemetry应用创建并接入后,会在应用运维管理(AOM)控制台,自动创建一个对应的Prometheus实例。图5 查看Opentelemetry应用
- 登录AOM 2.0控制台。
- 在左侧导航栏选择“Prometheus监控 > 实例列表”,在实例列表中查看自动创建的Prometheus实例。
图6 查看普罗实例
- 在AOM 2.0控制台,创建告警规则。具体操作参见告警规则。