更新时间:2021-09-18 GMT+08:00
分享

学件简介

NAIE模型训练服务预置了KPI异常检测、多层嵌套异常检测、硬盘故障根因分析等多个学件,供用户直接利用学件能力,定制生成业务模型。

背景

网络AI特性开发业务活动中,对很多运维场景有共性需求,比如异常检测、故障定位、故障预防预测等。以KPI异常检测场景为例,存在如下共性需求:
  • 运营商和企业客户对于KPI实时查看,快速定位故障有共性需求。
  • 运营商网络中存在海量KPI。例如:路由器有70000+KPI,其中丢包和统计类有4000+KPI。
  • DCN对接口/设备KPI、光链路、VM/应用均有异常检测需求。
针对KPI异常检测场景,缺乏公共算法能力积累,异常检测模型开发效率低,成本高。存在如下问题:
  • 产品对异常检测需求持续增加,单个异常检测模型开发周期约6个月,无法快速生成模型。
  • 同时需要投入1至2名算法专家进行数据清洗、特征分析、模型选择和验证等工作,模型开发成本高。

学件概念

学件可以重用已有学件进行开发,不必从头开发。

学件(Learnware)= 模型(model)+ 规约(specification)

其中,规约需要能够描述模型,模型需要满足如下条件:

  • 可重用:不同用户之间可分享模型,不需要分享数据,避免了数据隐私和数据保护。
  • 可演进:学件本身需要可演进,能适应环境,可增量学习
  • 可了解:规约需要给出模型应用场景。

学件还具备如下特点和优势:

  • 可不依赖数据:通过数据训练好的模型提供出去。把参数、网络结构等内容提供给出去,不提供数据,解决数据安全问题。
  • 可不依赖专家:具备基础模型,在约定的模型应用场景中可部分重用。

KPI异常检测公共学件

异常检测学件服务,通过数据特征画像识别数据类型,自动推荐训练算法与特征,采用无监督、有监督和动态基线等进行联合检测,通过专家经验对训练与检测进行调优,得到最终检测结果。模型训练完成后,可以将特征画像的结果、特征和参数、模型和参数都保留下来。后面仅需要使用新的数据,重训练模型,不用再重新做特征分析和模型分析。目前,学件已经集成了几十维到上百维不同种类的特征库,源于历史各类Case和通用KPI异常检测的算法库。后面会不断丰富特征库和算法库。

KPI异常检测公共学件,如图1所示。

图1 KPI异常检测公共学件

KPI异常检测公共学件的功能,如表1所示。

表1 公共学件的功能模块

功能模块

说明

数据接入模块

实现与各类数据源的接口、格式转换等。

数据管理模块

提供源数据、标注样本的存储、导入导出、查询等功能。

数据处理模块

主要实现数据的预处理,包括标签处理、缺失值填充、数据标准化等。

特征处理模块

主要实现对KPI的数据分布特征进行分析,自动选择特征及参数。并提供四大类,80+特征的自动提取。

模型管理模块

主要实现根据KPI的标签、数据分布特征等进行异常检测算法的自动选择、参数设置及模型训练、推理。

数据交互模块

主要支撑公共学件与用户的交互,包括数据管理、数据的可视化展示、专家经验注入等。

相关文档