在监控服务新增异常检测任务
根据业务需要分步骤创建异常检测任务,配置数据及模型等内容。当异常检测配置完成后可以生成相应告警,也可以在业务报表开发“告警总览页面”类型的报表时使用告警大盘。
操作流程
- 步骤一:新增任务:新增空的异常检测任务。
- 步骤二:配置数据来源:定义异常检测数据来源。
- 步骤三:配置基础数据:定义异常检测时间、指标、维度等基础信息。
- 步骤四:配置训练模型:配置异常检测算法模型,并进行模型训练。
- 步骤五:配置告警:配置异常检测生成的告警是否推送、告警级别等内容。
- (可选)步骤六:配置大盘显示:系统会默认配置告警总览页面显示样式,如需修改,可单击“大盘”进行设置。
步骤一:新增任务
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的 ,进入“异常检测”页面。
- 单击“新增任务”,进入任务基础信息配置页面。
- 配置任务参数,参数说明如表1所示,配置完成后,单击“确定”。
步骤二:配置数据来源
- 在异常检测任务列表,单击任务所在行“操作”列的“数据”。
- 在数据配置页面,选择异常检测数据类型,然后配置对应的参数,配置完成后,单击“保存”。
- 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。
表2 Warehouse类型参数说明 参数名称
参数说明
视图
选择指标仓库中已创建的异常检测视图,具体操作请参考为指标创建不同类型的视图。
指标
选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标。
调度集群
选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群,
- scheduleCluster-ops:数据汇聚任务使用。
- scheduleCluster-ops-ad:异常检测任务使用。
Mppdb集群
选择Mppdb集群。
Mppdb数据库
选择Mppdb数据库。
Mppdb数据表
选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。
- 数据类型选择Indicator,即选择指标仓库中的指标作为异常检测数据。选择Indicator数据类型后,需要配置如所示参数。
表3 Indicator类型参数说明 参数名称
参数说明
调度集群
选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群,
- scheduleCluster-ops:数据汇聚任务使用。
- scheduleCluster-ops-ad:异常检测任务使用。
指标
选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标。
维度列表
选择维度列,可多选。
Mppdb集群
选择Mppdb集群。
Mppdb数据库
选择Mppdb数据库。
Mppdb数据表
选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。
- 数据类型选择Other,即选择Mppdb表作为异常检测数据。选择Other数据类型后,需要配置如所示参数。
表4 Other类型参数说明 参数名称
参数说明
调度集群
选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群,
- scheduleCluster-ops:数据汇聚任务使用。
- scheduleCluster-ops-ad:异常检测任务使用。
Mppdb集群
选择Mppdb集群。
Mppdb数据库
选择Mppdb数据库。
Mppdb数据表
选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。
- 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。
步骤三:配置基础数据
- 在异常检测任务列表,单击任务所在行“操作”列的“基础”。
- 在基础配置页面,默认显示新增任务时配置的信息,单击“字段配置”,切换至“字段配置”页签。
- 配置对应的参数,配置完成后,单击“确认”。
表5 基础数据参数说明 参数名称
参数说明
时间列
指定异常检测哪个列的数据是时间。
指标列
指定异常检测哪个列的数据是指标,即异常检测需要监控的指标。
计数列
指定异常检测哪个列的数据是请求量。
补充列
可以选择补充异常检测数据列。
维度
指定对哪些维度进行检测。- 列名:指定维度列名,如需新增维度,可单击“+”号。
- 维度值:提供两种输入方式。
- 单击“获取动态值”,在“维度名-值筛选器”页面单击“保存”,动态获取维度值。如需手动修改,单击“打开编辑器”进行修改,可以手动过滤不需要的维度值。
- 单击“打开编辑器”,在“维度值-编辑”页面输入指定的维度值,并单击“Save”。
说明:
输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。
- 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。
维度筛选器
可以指定对某些维度组合对应的指标进行告警,或过滤某些维度。
步骤四:配置训练模型
- 在异常检测任务列表,单击任务所在行“操作”列的“模型”。
- 在模型配置页面,单击主模型后的添加模型,如图1所示,可添加多个模型。
- 在“算法配置”页签,配置算法参数,具体参数如表6所示,配置完成后单击“确定”。
表6 动态阈值算法配置参数说明 参数名称
参数说明
算法版本
选择算法及版本,推荐选择以下两种算法,版本选择最新版本。
- boxplot_ad :动态阈值算法。
- fixed_threshold:固定阈值算法。
当前模型
算法配置完成后,在“训练模型”页签通过训练,生成模型后,再进行模型选择。
输出表名
无需设置,保存后会自动生成表名,会将训练数据保存在该表中。
特定维度
开启特定维度后,会增加“维度参数配置”页签,可以在该页签指定维度,并进行参数配置。
metric_type
选择指标类型。
-
其他参数可以暂不设置,当生成的告警不符合预期时进行调整,参数说明请参见参数后的解释,告警调优请参见通过调整模型参数对异常告警调优。
- 单击“训练配置”,切换至“训练配置”页签,根据配置的算法进行模型训练。
- 设置参数,具体参数如表7所示。
- 单击“注册任务”,单击“确认”,注册模型训练任务。
- 单击“启动任务”,单击“确认”,启动模型训练任务,任务状态显示RUNNING表示任务启动成功。
- 单击“立即训练”,进行模型训练,可以在“训练历史”中查看训练任务进展。
- 当模型训练完成后需要在“算法配置”页签,选择当前模型。
训练的汇聚任务可以选择左侧导航栏“AI辅助诊断 > 任务配置”,选择“异常检测 > 汇聚任务管理”查看。
- 单击“Judge配置”,切换至“Judge配置”页签,配置Judge定时任务,对数据及训练结果进行对比判断。
- 设置参数,具体参数如表8所示。
表8 Judge配置参数说明 参数名称
参数说明
Dynamic Resource
动态资源,开启后可以动态分配任务使用的资源大小,关闭后可以手动配置。
Cpu核数
关闭动态资源开关后,可以手动修改Cpu核数。
内存 MB
关闭动态资源开关后,可以手动修改内存大小。
任务名称
默认显示该Judge任务的任务名称。
调度(固定时间)
设置任务执行时间。
例如设置3小时40分钟,则每天3点40执行任务;设置24小时40分钟,则每天0点40执行任务;设置为10分钟,则每小时的10分执行任务;设置为10秒,则每分钟的10秒执行任务。
调度(固定间隔)
设置执行任务的时间间隔,一般是小时任务和分钟任务会修改此值,不涉及无须选择。
例如设置6小时,则每6小时执行一次,即0点、6点、12点、18点执行;配合固定时间调度,间隔时间配置为6小时,固定时间配置为10分钟,则每天的0:10、6:10、12:10、18:10执行。
汇聚时间提前
设置执行任务时选择的数据时间提前多久。
例如时间提前3分钟,每次查询的时间范围自动往前偏移3分钟;当查询范围是小时、天的时候,一般不需要配置;分钟汇聚任务,由于延迟原因,一般都需配置。
结果时间偏移
设置汇聚出的结果存入输出表的时间值。
例如结果时间偏移15分钟,每次执行的结果数据存入MPPDB数据库的timestamp自动增加15分钟。
- 单击“初始化Daemon”,当Judge Daemon状态为RUNNING,表示初始化成功。
- 单击“注册任务”,注册Judge任务。
- 单击“启动任务”,单击“确认”,启动Judge任务,任务状态显示RUNNING表示任务启动成功。
训练的汇聚任务可以选择左侧导航栏“AI辅助诊断 > 任务配置”,选择“异常检测 > 汇聚任务管理”查看。
- 设置参数,具体参数如表8所示。
步骤五:配置告警
- 在异常检测任务列表,单击任务所在行“操作”列的“告警”,默认显示“告警配置”页签。
- 告警基础配置。
表9 动态阈值算法配置参数说明 参数名称
参数说明
推送状态
设置告警推送状态,将异常检测生成的告警推送到告警模块,会展示在告警列表中。
- INACTIVE:不推送,单击“Start”,可以设置为推送。
- ACTIVE:推送,单击“Stop”,可以设置为不推送。
告警级别
设置该异常检测任务生成的告警的级别,对应告警模块。
- critical:紧急
- major:严重
- minor:一般
- notice:提示
告警名称
告警信息发送时展示的名称,可以设置告警名称或告警中文名称。
告警中文名称
告警信息发送时展示的名称,可以设置告警名称或告警中文名称。
阈值类型
设置判断阈值类型。
- upper:数据高于模型预测上限值时产生告警。
- lower:数据低于模型预测下限值时产生告警。
- both:数据介于模型预测值之间时产生告警。
阈值类型配置需根据模型配置中的“metric_type(指标类型)”进行选择,如下所示:
- 成功率(success_rate)、速率(speed)、请求量下限(count_lowerlimit)配置下限(lower)。
- 时延(delay)、失败率(fail_rate)、请求量上限(count_upperlimit)配置上限(upper)。
- 请求量(count)可任意配置both/upper/lower。
自定义告警消息列
配置生成的告警字段,下拉列表可选字段为训练结果表中存在的字段,一般选择维度字段、指标测量值、上下限阈值(带有origin的字段)和告警类型(alert_type:长时间超过阈值线告警、毛刺告警、波动性告警、突变告警、掉零告警、小样本告警等)。选择后可以单击“Json Demo”或者“Text Demo”自动生成告警消息模板,如图2所示。
也可根据用户需要自定义。需要注意的是,模板中的变量写法为${字段名},最终生成的消息内容是将结果表中对应字段内容直接替换得到,如果某个字段值获取失败,请检查字段名称是否一致或结果表中数据是否异常。
自定义警报消息模板
根据自定义告警消息列设置的数据生成。
指定告警领域
如果本服务下不需要接收该告警信息,但其他某个服务需要接收,可以在这里指定对方的告警领域,将告警通知到对应服务中。
- (可选)默认为不降级,可以开启降级配置按钮,并设置告警降级的生效时间段、请求量、指标量和持续时间,会按照设置降低生成告警的级别。
- (可选)可以按服务ID设置告警路由,或自定义告警路由规则,如需配置请联系技术支持工程师。
步骤六:配置大盘显示
- 在异常检测任务列表,单击任务所在行“操作”列的“大盘”。
- 在“大盘”页面可以修改如下参数,修改完成后单击“确认”。
- 查询间隔(小时):设置大盘展示数据的查询间隔。
- 百分比:选择是否展示数据百分比。
- 查询--输入类型:设置查询字段hostaddr或hostname展示的数据。
- 查询--字段名称:设置查询字段hostaddr或hostname展示的名称。
更多操作
您还可以对异常检测任务进行以下操作。
操作名称 |
操作步骤 |
---|---|
抑制异常检测告警 |
抑制功能主要是利用根因诊断的能力,所以配置前需要先配置完成根因诊断。 在异常检测任务列表中,单击任务所在行“操作”列的“抑制”进行配置。 |
发布异常检测配置 |
|
共享异常检测配置 |
在异常检测任务列表中,单击任务所在行“操作”列的“共享”。 共享后其他服务可以使用该配置。 |
排除部分模型数据 |
|
查看操作历史 |
在异常检测任务列表中,单击任务所在行“操作”列的“更多 > 操作历史”。 |
删除异常检测任务 |
|