更新时间:2024-05-07 GMT+08:00
分享

异常检测

异常检测基于运维领域的数据的历史特征,对其未来的走向进行预测。一旦当前实际数据和预测值偏差到一定程度,则认为发生异常,会生成告警并上报至告警系统。

监控服务支持快速配置异常检测任务,当快速配置不满足业务需要时,可以通过新建任务完成异常检测配置。

约束与限制

  • 异常检测目前只支持指标仓库和Mppdb表两种输入源。建议按照指标仓库的类型接入,方便后续接入根因分析系统(不建议Mppdb类型)。
  • 异常检测任务目前支持最多2000维度的任务。超过该维度建议通过请求量过滤小请求量的维度或者通过维度拆分为多个任务。

快速配置异常检测任务

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的AI辅助诊断 > 异常检测,进入“异常检测”页面。
  2. 单击“快速配置”,进入任务基础信息快速配置页面。
  3. 配置任务参数,参数说明如表1所示。

    表1 配置任务参数说明

    参数名称

    参数说明

    指标

    选择指标仓库的指标。

    任务名称

    自定义任务名称,只能包含字母、数字、下划线。

    告警名

    设置告警名称,会展示在告警列表中。

    数据源类型

    选择数据源类型。

    告警级别

    选择告警级别,与告警模块级别相对应。

    描述

    输入任务描述。

    维度列表

    来自于指标的逻辑实体上的维度 选择异常检测需要对哪些维度做检测。

    ALL维度列表

    指需要对哪些维度进行all维度的配置。

    维度过滤设置

    维度过滤器,用于按照维度和请求量进行过滤。

    指标类型

    指标的类型,针对指标的定义进行选择。

    算法类型

    选择异常检测算法,支持固定阈值和动态阈值。

    • 固定阈值:简单设置上限或者下限值。一旦数据超过上限或是低于下限则发生异常。
    • 动态阈值:通过训练历史数据,实现对数据特征的学习,构建数据的模型。并利用模型来预测数据的趋势走向。当实际值和预测值相差过大,认为异常。

    上限

    当算法类型选择固定阈值时,需要设置上限。

    下限

    当算法类型选择固定阈值时,需要设置下限。

    预估维度数

    -

  4. 配置完成后,单击“Save”,弹出任务进度窗口,等待任务配置完成后就可以在任务管理页面看到该任务。

新增任务

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的AI辅助诊断 > 异常检测,进入“异常检测”页面。
  2. 单击“新增任务”,进入任务基础信息配置页面。
  3. 配置任务参数,参数说明如表2所示,配置完成后,单击“确定”。

    表2 配置任务参数说明

    参数名称

    参数说明

    服务名称

    所在服务名称,不支持修改。

    任务名称

    设置任务名称,默认以服务名称加下划线开头。

    执行集群

    选择任务执行集群。

    描述

    输入任务描述。

  4. 在任务列表中,该任务所在行“操作”列配置具体任务,具体配置说明如表3所示。

    表3 异常检测任务配置说明

    操作

    操作说明

    数据

    定义异常检测数据从何而来,当前支持如下数据类型:

    • Warehouse:指标仓库,可选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。
    • Indacitor:指标,可选择指标仓库中的指标作为异常检测数据,推荐使用该方式。
    • Other:可选择Mppdb表作为异常检测数据。

    基础

    主要配置项如下:

    • 时间列:指定异常检测哪个列的数据是时间。
    • 指标列:指定异常检测哪个列的数据是指标。
    • 计数列:指定异常检测哪个列的数据是请求量。
    • 维度:指定对哪些维度进行检测。
      • 列名:指定维度列的列名,如需新增维度,可单击“+”号。
      • 维度值:单击“获取动态值”,输入维度,从数据库中动态查询参数值;如需手动修改,单击“打开编辑器”进行修改。

        输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。

      • 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。

    模型

    • 算法配置:模型主要涉及算法及任务相关信息,其中“算法配置”页签主要涉及算法及其模型。
    • 检测任务配置:训练配置和Judge配置主要是训练和Judge定时任务相关的配置及任务执行的结果。这些配置的都是自动完成,使用者重点关注任务每次执行是否成功。

    抑制

    抑制主要是利用根因诊断的能力,对数据进行下钻分析,确认根因的维度。如果根因的维度与配置的维度一致,则抑制该告警。所以前提是先配置完成根因诊断能力。

    告警

    • 基础配置,指定告警配置,主要配置如下:
      • 推送状态: Start或者Stop,设置Stop将不会推送告警。
      • 告警级别:告警的级别与告警系统对应。
      • 阈值类型:是要对上限还是下限进行检测。
    • 告警降级配置:选择是否开启告警降级。
    • 告警路由:配置告警路由规则。

    大盘

    监控服务支持报表开发功能,其中“告警总览页面”类型的报表可以通过大盘设置过滤。

异常检测告警调优

由于超参设置或是数据特征发生变化,会导致预测的数据不够准确,导致误告警发生。请参考异常检测告警调优查看不同类型异常告警及调优方法。

异常检测常见问题

如何停止某个任务的告警

单击任务所在行“操作”列的“告警”,在任务告警配置中,将推送状态设置为Stop,如图1所示。

图1 设置任务告警

如何立刻进行模型训练

单击任务所在行“操作”列的“模型”,在任务训练模型配置中,单击“立即训练”,如图2所示,即可触发一次训练任务。

图2 设置任务模型训练
分享:

    相关文档

    相关产品