更新时间:2024-05-23 GMT+08:00
分享

启动根因诊断

根因诊断自动将告警聚合成事件,通过全链路诊断AI引擎,整合根因诊断原子能力,达到快速问题定界和根因推荐。

通过根因诊断的告警聚合基础能力以及业务配置的指标/维度关联关系将告警聚合成一个事件。

根因诊断目前支持的诊断算法主要有4种,各诊断能力之间相互独立,业务可以根据自己的场景选择使用:

  • 多维下钻根因诊断应用场景:某指标异常时,需要定位是哪些维度导致指标异常的。例如,视频起播成功率异常下降时,需要定位是哪些节目的起播成功率下降导致的;还有比较典型的单用户根因诊断等。
  • 日志根因诊断应用场景:目前的典型使用场景是RUN日志根因诊断,比如**接口成功率告警时,通过异常请求的traceid关联查询RUN日志,诊断出问题的根因。
  • 调用链根因诊断应用场景:调用链根因诊断应用于服务调用链路上某个接口的成功率/时延指标异常时,需要定位是下游调用的哪个接口以及target异常导致的。
  • 流量溯源根因诊断应用场景:流量溯源根因诊断应用于服务调用链路上某个接口请求量指标异常时,需要定位是上游的哪个接口以及source触发的。

约束与限制

  • 根因诊断的指标需要在指标仓库纳管,如果指标仓库里没有,则需要先创建指标,具体请参见创建指标
  • 根因诊断的指标需要配置异常检测任务,如果没有配置,则需要先配置异常检测任务,具体请参见异常检测

创建任务

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的AI辅助诊断 > 根因诊断
  2. 单击“创建任务”,会创建一个空任务,任务名为XXX_OPS_INCIDENT_ANALYSIS_DEPLOY,其中XXX为所选的自有服务的服务名。

配置任务

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的AI辅助诊断 > 根因诊断
  2. 单击已创建任务下的“数据配置”。
  3. 在“数据配置”页面,选择需要诊断指标的环节,然后根据业务的诊断场景配置指标环节、维度关联关系、指标维度关联关系,配置完成后,单击“算法配置”。
  4. 在“算法配置”页面,依次选择每个算法的版本,然后单击“保存”。
  5. (可选)单击已创建任务下的“告警聚合配置”,可以选择需要诊断的告警级别,默认为紧急和严重级别告警。

启动任务

  1. 进入运维中心工作台。
  2. 在顶部导航栏选择自有服务。
  1. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  1. 选择左侧导航栏的AI辅助诊断 > 根因诊断
  2. 单击已创建并配置完成的任务下的“启动任务”,开始根因诊断。
分享:

    相关文档

    相关产品