创建告警定义规则
如果您对于繁琐复杂的告警上报字段感到困惑,可以使用统一告警定义,该功能会自动下发到业务对应的agent,使用更加人性化的界面设计,让告警上报更加统一、准确。
告警定义依赖于业务在数据采集时部署了对应的Agent和数据采集的插件,首先需要有持续的采集数据上报,告警定义才能生效。
告警定义决定了是否要根据上报的采集数据产生告警,相当于告警的计算公式。经过监控系统计算后,如果数据持续异常,则上报到告警系统中,产生告警。
前提条件
已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
创建AIOps规则
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的 。
- 单击“统一告警定义”,进入告警定义页面。
- 单击“创建”。
- 配置AIOps规则参数,参数说明如表1所示,配置完成后,单击“确定”。
表1 AIOps规则参数说明 参数名称
参数说明
指标来源
选择告警的指标来源“AIOps”。
告警定义名称
设置告警定义的名称,长度不超过512个字符,告警定义名称支持如下2种命名方式:
- 普通命名。
- 表达式命名,使用{{$labels.变量名}}命名,支持的变量如下:
- cluster:所在ERS集群名称
- namespace:命名空间
- workload:工作负载
- tenant_id:租户ID
- application_id:应用ID
- service_id:服务ID
- site:站点
例如想要获取CCE集群内存平均使用率大于70%告警,可以命名为:“{{$labels.cluster}}集群的内存使用率超过70%”。
级别
选择该规则生成告警的级别。
告警类型
选择告警类型,上报的告警会显示类型信息,可根据类型筛选查看告警。
指标
选择在指标仓库已创建的指标,创建指标请参见在运维中心指标仓库创建指标。
维度列表
来自于指标的逻辑实体上的维度,选择异常检测需要对哪些维度做检测。
ALL维度列表
选择需要过滤的维度。
维度过滤设置
只关注维度部分取值时,可以设置该参数对维度取值进行过滤。
指标类型
选择指标类型。
算法类型
选择固定阈值或动态阈值,固定类型还需要设置阈值的上限、下限和预估维度数。