更新时间:2024-12-17 GMT+08:00
分享

在监控服务新增异常检测任务

根据业务需要分步骤创建异常检测任务,配置数据及模型等内容。当异常检测配置完成后可以生成相应告警,也可以在业务报表开发“告警总览页面”类型的报表时使用告警大盘。

操作流程

  1. 步骤一:新增任务:新增空的异常检测任务。
  2. 步骤二:配置数据来源:定义异常检测数据来源。
  3. 步骤三:配置基础数据:定义异常检测时间、指标、维度等基础信息。
  4. 步骤四:配置训练模型:配置异常检测算法模型,并进行模型训练。
  5. 步骤五:配置告警:配置异常检测生成的告警是否推送、告警级别等内容。
  6. (可选)步骤六:配置大盘显示:系统会默认配置告警总览页面显示样式,如需修改,可单击“大盘”进行设置。

步骤一:新增任务

  1. 进入AppStage运维中心
  2. 在顶部导航栏选择服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的AI辅助诊断 > 异常检测,进入“异常检测”页面。
  2. 单击“新增任务”,进入任务基础信息配置页面。
  3. 配置任务参数,参数说明如表1所示,配置完成后,单击“确定”。

    新增后在任务列表展示该任务。
    表1 配置任务参数说明

    参数名称

    参数说明

    服务名称

    所在服务名称,不支持修改。

    任务名称

    设置任务名称,默认以服务名称加下划线开头。

    执行集群

    选择任务执行集群。

    描述

    输入任务描述。

步骤二:配置数据来源

  1. 在异常检测任务列表,单击任务所在行“操作”列的“数据”。
  2. 在数据配置页面,选择异常检测数据类型,然后配置对应的参数,配置完成后,单击“保存”。

    • 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。
      表2 Warehouse类型参数说明

      参数名称

      参数说明

      视图

      选择指标仓库中已创建的异常检测视图,具体操作请参考为指标创建不同类型的视图

      指标

      选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标

      调度集群

      选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群,

      • scheduleCluster-ops:数据汇聚任务使用。
      • scheduleCluster-ops-ad:异常检测任务使用。

      Mppdb集群

      选择Mppdb集群。

      Mppdb数据库

      选择Mppdb数据库。

      Mppdb数据表

      选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表

    • 数据类型选择Indicator,即选择指标仓库中的指标作为异常检测数据。选择Indicator数据类型后,需要配置如所示参数。
      表3 Indicator类型参数说明

      参数名称

      参数说明

      调度集群

      选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群,

      • scheduleCluster-ops:数据汇聚任务使用。
      • scheduleCluster-ops-ad:异常检测任务使用。

      指标

      选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标

      维度列表

      选择维度列,可多选。

      Mppdb集群

      选择Mppdb集群。

      Mppdb数据库

      选择Mppdb数据库。

      Mppdb数据表

      选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表

    • 数据类型选择Other,即选择Mppdb表作为异常检测数据。选择Other数据类型后,需要配置如所示参数。
      表4 Other类型参数说明

      参数名称

      参数说明

      调度集群

      选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群,

      • scheduleCluster-ops:数据汇聚任务使用。
      • scheduleCluster-ops-ad:异常检测任务使用。

      Mppdb集群

      选择Mppdb集群。

      Mppdb数据库

      选择Mppdb数据库。

      Mppdb数据表

      选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表

步骤三:配置基础数据

  1. 在异常检测任务列表,单击任务所在行“操作”列的“基础”。
  2. 在基础配置页面,默认显示新增任务时配置的信息,单击“字段配置”,切换至“字段配置”页签。
  3. 配置对应的参数,配置完成后,单击“确认”。

    表5 基础数据参数说明

    参数名称

    参数说明

    时间列

    指定异常检测哪个列的数据是时间。

    指标列

    指定异常检测哪个列的数据是指标,即异常检测需要监控的指标。

    计数列

    指定异常检测哪个列的数据是请求量。

    补充列

    可以选择补充异常检测数据列。

    维度

    指定对哪些维度进行检测。
    • 列名:指定维度列名,如需新增维度,可单击“+”号。
    • 维度值:提供两种输入方式。
      • 单击“获取动态值”,在“维度名-值筛选器”页面单击“保存”,动态获取维度值。如需手动修改,单击“打开编辑器”进行修改,可以手动过滤不需要的维度值。
      • 单击“打开编辑器”,在“维度值-编辑”页面输入指定的维度值,并单击“Save”。
        说明:

        输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。

    • 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。

    维度筛选器

    可以指定对某些维度组合对应的指标进行告警,或过滤某些维度。

步骤四:配置训练模型

  1. 在异常检测任务列表,单击任务所在行“操作”列的“模型”。
  2. 在模型配置页面,单击主模型后的添加模型,如图1所示,可添加多个模型。

    添加后,默认现在该模型“算法配置”页签。
    图1 添加模型

  3. 在“算法配置”页签,配置算法参数,具体参数如表6所示,配置完成后单击“确定”。

    表6 动态阈值算法配置参数说明

    参数名称

    参数说明

    算法版本

    选择算法及版本,推荐选择以下两种算法,版本选择最新版本。

    • boxplot_ad :动态阈值算法。
    • fixed_threshold:固定阈值算法。

    当前模型

    算法配置完成后,在“训练模型”页签通过训练,生成模型后,再进行模型选择。

    输出表名

    无需设置,保存后会自动生成表名,会将训练数据保存在该表中。

    特定维度

    开启特定维度后,会增加“维度参数配置”页签,可以在该页签指定维度,并进行参数配置。

    metric_type

    选择指标类型。

    -

    其他参数可以暂不设置,当生成的告警不符合预期时进行调整,参数说明请参见参数后的解释,告警调优请参见通过调整模型参数对异常告警调优

  4. 单击“训练配置”,切换至“训练配置”页签,根据配置的算法进行模型训练。

    1. 设置参数,具体参数如表7所示。
      表7 训练配置参数说明

      参数名称

      参数说明

      训练时长

      选择训练时长,即使用多长时间的数据进行模型训练。

      Dynamic Resource

      动态资源,开启后可以动态分配任务使用的资源大小,关闭后可以手动配置。

      Cpu核数

      关闭动态资源开关后,可以手动修改Cpu核数。

      内存 MB

      关闭动态资源开关后,可以手动修改内存大小。

      任务名称

      默认显示该训练任务的任务名称。

    2. 单击“注册任务”,单击“确认”,注册模型训练任务。
    3. 单击“启动任务”,单击“确认”,启动模型训练任务,任务状态显示RUNNING表示任务启动成功。
    4. 单击“立即训练”,进行模型训练,可以在“训练历史”中查看训练任务进展。
    5. 当模型训练完成后需要在“算法配置”页签,选择当前模型。

    训练的汇聚任务可以选择左侧导航栏“AI辅助诊断 > 任务配置”,选择“异常检测 > 汇聚任务管理”查看。

  5. 单击“Judge配置”,切换至“Judge配置”页签,配置Judge定时任务,对数据及训练结果进行对比判断。

    1. 设置参数,具体参数如表8所示。
      表8 Judge配置参数说明

      参数名称

      参数说明

      Dynamic Resource

      动态资源,开启后可以动态分配任务使用的资源大小,关闭后可以手动配置。

      Cpu核数

      关闭动态资源开关后,可以手动修改Cpu核数。

      内存 MB

      关闭动态资源开关后,可以手动修改内存大小。

      任务名称

      默认显示该Judge任务的任务名称。

      调度(固定时间)

      设置任务执行时间。

      例如设置3小时40分钟,则每天3点40执行任务;设置24小时40分钟,则每天0点40执行任务;设置为10分钟,则每小时的10分执行任务;设置为10秒,则每分钟的10秒执行任务。

      调度(固定间隔)

      设置执行任务的时间间隔,一般是小时任务和分钟任务会修改此值,不涉及无需选择。

      例如设置6小时,则每6小时执行一次,即0点、6点、12点、18点执行;配合固定时间调度,间隔时间配置为6小时,固定时间配置为10分钟,则每天的0:10、6:10、12:10、18:10执行。

      汇聚时间提前

      设置执行任务时选择的数据时间提前多久。

      例如时间提前3分钟,每次查询的时间范围自动往前偏移3分钟;当查询范围是小时、天的时候,一般不需要配置;分钟汇聚任务,由于延迟原因,一般都需配置。

      结果时间偏移

      设置汇聚出的结果存入输出表的时间值。

      例如结果时间偏移15分钟,每次执行的结果数据存入MPPDB数据库的timestamp自动增加15分钟。

    2. 单击“初始化Daemon”,当Judge Daemon状态为RUNNING,表示初始化成功。
    3. 单击“注册任务”,注册Judge任务。
    4. 单击“启动任务”,单击“确认”,启动Judge任务,任务状态显示RUNNING表示任务启动成功。

    训练的汇聚任务可以选择左侧导航栏“AI辅助诊断 > 任务配置”,选择“异常检测 > 汇聚任务管理”查看。

步骤五:配置告警

  1. 在异常检测任务列表,单击任务所在行“操作”列的“告警”,默认显示“告警配置”页签。
  2. 告警基础配置。

    表9 动态阈值算法配置参数说明

    参数名称

    参数说明

    推送状态

    设置告警推送状态,将异常检测生成的告警推送到告警模块,会展示在告警列表中。

    • INACTIVE:不推送,单击“Start”,可以设置为推送。
    • ACTIVE:推送,单击“Stop”,可以设置为不推送。

    告警级别

    设置该异常检测任务生成的告警的级别,对应告警模块。

    • critical:紧急
    • major:严重
    • minor:一般
    • notice:提示

    告警名称

    告警信息发送时展示的名称,可以设置告警名称或告警中文名称。

    告警中文名称

    告警信息发送时展示的名称,可以设置告警名称或告警中文名称。

    阈值类型

    设置判断阈值类型。

    • upper:数据高于模型预测上限值时产生告警。
    • lower:数据低于模型预测下限值时产生告警。
    • both:数据介于模型预测值之间时产生告警。

    阈值类型配置需根据模型配置中的“metric_type(指标类型)”进行选择,如下所示:

    • 成功率(success_rate)、速率(speed)、请求量下限(count_lowerlimit)配置下限(lower)。
    • 时延(delay)、失败率(fail_rate)、请求量上限(count_upperlimit)配置上限(upper)。
    • 请求量(count)可任意配置both/upper/lower。

    自定义告警消息列

    配置生成的告警字段,下拉列表可选字段为训练结果表中存在的字段,一般选择维度字段、指标测量值、上下限阈值(带有origin的字段)和告警类型(alert_type:长时间超过阈值线告警、毛刺告警、波动性告警、突变告警、掉零告警、小样本告警等)。选择后可以单击“Json Demo”或者“Text Demo”自动生成告警消息模板,如图2所示。

    也可根据用户需要自定义。需要注意的是,模板中的变量写法为${字段名},最终生成的消息内容是将结果表中对应字段内容直接替换得到,如果某个字段值获取失败,请检查字段名称是否一致或结果表中数据是否异常。

    图2 自定义告警消息列设置

    自定义警报消息模板

    根据自定义告警消息列设置的数据生成。

    指定告警领域

    如果本服务下不需要接收该告警信息,但其他某个服务需要接收,可以在这里指定对方的告警领域,将告警通知到对应服务中。

  3. (可选)默认为不降级,可以开启降级配置按钮,并设置告警降级的生效时间段、请求量、指标量和持续时间,会按照设置降低生成告警的级别。
  4. (可选)可以按服务ID设置告警路由,或自定义告警路由规则,如需配置请联系技术支持工程师。

步骤六:配置大盘显示

  1. 在异常检测任务列表,单击任务所在行“操作”列的“大盘”。
  2. 在“大盘”页面可以修改如下参数,修改完成后单击“确认”。

    • 查询间隔(小时):设置大盘展示数据的查询间隔。
    • 百分比:选择是否展示数据百分比。
    • 查询--输入类型:设置查询字段hostaddr或hostname展示的数据。
    • 查询--字段名称:设置查询字段hostaddr或hostname展示的名称。

更多操作

您还可以对异常检测任务进行以下操作。

表10 相关操作

操作名称

操作步骤

抑制异常检测告警

抑制功能主要是利用根因诊断的能力,所以配置前需要先配置完成根因诊断。

在异常检测任务列表中,单击任务所在行“操作”列的“抑制”进行配置。

发布异常检测配置

  1. 在异常检测任务列表中,单击任务所在行“操作”列的“未发布”。
  2. 单击“确定”。

    取消发布,可以单击“已发布”进行取消。

共享异常检测配置

在异常检测任务列表中,单击任务所在行“操作”列的“共享”。

共享后其他服务可以使用该配置。

排除部分模型数据

  1. 在异常检测任务列表中,单击任务所在行“操作”列的“更多 > 数据淘汰”。
  2. 单击“添加规则”,设置指标淘汰时间或阈值淘汰时间。
  3. 单击“确定”。

查看操作历史

在异常检测任务列表中,单击任务所在行“操作”列的“更多 > 操作历史”。

删除异常检测任务

  1. 在异常检测任务列表中,单击任务所在行“操作”列的“更多 > 删除”。
  2. 单击“确定”。

相关文档