更新时间:2024-10-28 GMT+08:00
分享

事件根因分析

事件根因分析服务提供异常事件快速根因定位分析的功能,根因分析基于事件巡检看护的服务历史数据,根据服务指标、调用链数据进行下钻分析,细粒度定位根因。

功能入口

  1. 登录AOM 2.0控制台。
  2. 左侧导航栏单击“智能洞察(BETA)”。
  3. 在页面右上角设置应用的时间范围。可通过如下两种方式设置时间范围:

    方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。

    方式二:通过开始时间和结束时间,自定义时间范围。

  4. 在过滤器上方的下拉列表中选择需要查看的应用。
  5. 单击事件卡片或列表进入该事件详情页面,查看事件的根因分析。

各异常事件的根因分析

  • 应用服务整体平均响应时间突增:基于应用的调用链数据,针对应用粒度提供下钻分析,分析应用下每个组件的平均时延以快速定位根因,找到导致应用整体RT突增的具体组件。
    图1 应用服务整体平均响应时间突增
  • 应用服务整体错误率突增:基于应用的调用链数据,针对应用粒度提供下钻分析,分析应用下每个组件的错误率以快速定位根因,下钻到应用下具体组件的错误率异常。单击“查看调用链”,可详细追踪错误率突增的原因。
    图2 应用服务整体错误率突增
  • TopN接口平均响应时间突增:基于应用的调用链数据,针对接口粒度提供调用链响应时间分析,快速定位根因。
    图3 TopN接口平均响应时间突增
  • TopN接口错误率突增:基于应用的调用链数据,针对接口粒度提供调用链错误率分析,快速定位根因。单击“查看调用链”,可详细追踪错误率突增的原因。
    图4 TopN接口错误率突增
  • 应用服务整体流量不均:基于应用下所有实例的流量数据,展示应用下最大流量和最小流量实例的流量和时延数据,并展示应用下流量Top5的接口在最大流量和最小流量实例上的分布,快速定位受影响接口。单击所展示的接口,可详细追踪接口近期的调用情况。
    图5 应用服务整体流量不均-流量统计&流量分布

根因分析方法

“智能洞察”根因分析方法是一种基于调用链下钻的根因分析方法,分为离线训练和在线推理两个阶段:
  1. 离线训练阶段:在用户开通“智能洞察”功能后,后台会自动开启基于调用链的根因分析模型的离线训练任务,并自动获取应用接口发生调用时产生的调用链数据,然后根据应用近7天的调用链数据来训练调用链模型。默认每14天后台自动更新模型,并将模型保存在后台数据库中。
  2. 在线推理阶段:当用户单击事件卡片,进入到根因分析页面时,会触发根因分析模型的在线推理任务,在线推理任务会基于上一步离线训练完的调用链模型与事件发生期间的异常调用进行模式对比,分析事件根因,进行快速定位。

相关文档