更新时间:2025-01-24 GMT+08:00
分享

创建告警定义规则

如果您对于繁琐复杂的告警上报字段感到困惑,可以使用统一告警定义,该功能会自动下发到业务对应的agent,使用更加人性化的界面设计,让告警上报更加统一、准确。

告警定义依赖于业务在数据采集时部署了对应的Agent和数据采集的插件,首先需要有持续的采集数据上报,告警定义才能生效。

告警定义决定了是否要根据上报的采集数据产生告警,相当于告警的计算公式。经过监控系统计算后,如果数据持续异常,则上报到告警系统中,产生告警。

前提条件

已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限

创建AIOps规则

  1. 进入AppStage运维中心
  2. 在顶部导航栏选择服务。
  3. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  4. 选择左侧导航栏的告警 > 策略配置
  5. 单击“统一告警定义”,进入告警定义页面。
  6. 单击“创建”。
  7. 配置AIOps规则参数,参数说明如表1所示,配置完成后,单击“确定”。

    表1 AIOps规则参数说明

    参数名称

    参数说明

    指标来源

    选择告警的指标来源“AIOps”。

    告警定义名称

    设置告警定义的名称,长度不超过512个字符,告警定义名称支持如下2种命名方式:

    • 普通命名。
    • 表达式命名,使用{{$labels.变量名}}命名,支持的变量如下:
      • cluster:所在ERS集群名称
      • namespace:命名空间
      • workload:工作负载
      • tenant_id:租户ID
      • application_id:应用ID
      • service_id:服务ID
      • site:站点

      例如想要获取CCE集群内存平均使用率大于70%告警,可以命名为:“{{$labels.cluster}}集群的内存使用率超过70%”。

    级别

    选择该规则生成告警的级别。

    告警类型

    选择告警类型,上报的告警会显示类型信息,可根据类型筛选查看告警。

    指标

    选择在指标仓库已创建的指标,创建指标请参见在运维中心指标仓库创建指标

    维度列表

    来自于指标的逻辑实体上的维度,选择异常检测需要对哪些维度做检测。

    ALL维度列表

    选择需要过滤的维度。

    维度过滤设置

    只关注维度部分取值时,可以设置该参数对维度取值进行过滤。

    指标类型

    选择指标类型。

    算法类型

    选择固定阈值或动态阈值,固定类型还需要设置阈值的上限、下限和预估维度数。

相关文档