更新时间:2024-05-23 GMT+08:00
分享

告警定义

告警定义依赖于业务在数据采集时部署了对应的Agent和数据采集的插件,首先需要有持续的采集数据上报,告警定义才能生效。

告警定义决定了是否要根据上报的采集数据产生告警,相当于告警的计算公式。

监控的prometheus计算完后,会上报到监控的adapter再上报到告警系统,产生告警。

生成告警的报文信息由告警定义规则创建时的预置条件生成。

告警定义流程

告警定义流程如图1所示。

图1 告警定义流程图

前提条件

已获取服务运维岗位权限,权限申请操作请参见申请权限

添加模板告警

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的告警 > 策略配置
  2. 单击“统一告警定义”,进入告警定义页面。
  3. 在“统一告警规则”页面,“模板告警”页签,单击“创建”。
  4. 配置模板告警参数,参数说明如表1所示,配置完成后,单击“确定”。

    表1 模板告警参数说明

    参数名称

    参数说明

    指标来源

    选择告警的指标来源。

    告警定义名称

    告警定义名称。

    级别

    统计的告警级别。

    告警类型

    选择告警类型。

    持续时间

    指标持续异常的时间,以持续时间5min为例,需要异常连续满足5min内的计算点全部异常才会生成告警,否则就不会生成。

    持续时间控制了当前指标生成告警的速率。

    是否激活

    是否激活这条告警定义。

    是否调试

    选择是否调试。

    关联监控模板

    选择需要关联的监控模板。

    指标名称

    选择插件、指标。

    指标名称由插件决定,业务启用了哪些插件,所有启用插件能够采集到的所有数据都属于告警定义指标。例如选择cpu_iowait,指的就是宿主机的cpu io等待时间,在比较方式里可以根据不同的策略来决定当前指标是否异常,异常则生产告警。

    比较方式

    • 区间阈值分为在区间内和在区间外。
      • 在区间内:指数据值满足在该范围内则指标正常,否则异常。
      • 在区间外:指数据值满足不在该范围内则指标正常,否则异常。
    • 固定阈值是指数据不满足当前设置表达式则指标异常,有四种表达式,包括大于等于、小于、等于和不等于。
    • 同比是计算指标的时候与前一天同一时刻的比较,根据前一条的值的大小来决定当前指标是否异常。例:昨日为100 今日为105,超出了下图设置的4%的增长阈值,则指标异常。

    告警标签

    指标的补充条件,如果存在告警标签则需要满足所有的告警标签才会生成告警。

    标签的范围也是由指标定义。例: 选择ip = 10.123.15.102 则上报的指标数据不仅需要满足指标的比较方式同时也需要满足ip = 10.123.15.102 才能产生指标,如果是同一个业务下其他ip的异常,则不会产生告警。

    标签的判断有四种形式 等于,不等于,正则匹配成功,正则匹配不成功。

    消息模板

    消息模板是告警msg中的具体信息,可选变量名由指标来决定,每一个指标都有自己对应的变量名列表,可选范围也在这里。

    短信息模板

    编辑短消息模板。

    表达式

    获取表达式。

添加自定义告警

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的告警 > 策略配置
  2. 单击“统一告警定义”,进入告警定义页面。
  3. 单击“自定义告警”,切换至“自定义告警”页签。
  4. 单击“创建”。
  5. 配置自定义告警参数,参数说明如表2所示,配置完成后,单击“确定”。

    表2 自定义告警参数说明

    参数名称

    参数说明

    指标来源

    目前只有云眼监控,后续可能对接aiops,华为云等。

    告警定义名称

    告警定义名称。

    级别

    统计的告警级别。

    告警类型

    选择告警类型。

    持续时间

    指标持续异常的时间,以持续时间5min为例,需要异常连续满足5min内的计算点全部异常才会生成告警,否则就不会生成。

    持续时间控制了当前指标生成告警的速率。

    表达式

    输入表达式。

分享:

    相关文档

    相关产品