更新时间:2024-07-31 GMT+08:00
分享

事件巡检

事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。

功能说明

事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。

获取基础数据时间范围如下:
  • 基于应用3小时内的历史数据,形成动态上界,以比对近10分钟的数据是否有异常。支持如下事件类型:
    • 应用服务整体平均响应时间突增
    • TopN接口平均响应时间突增
    • 应用服务整体错误率突增
    • TopN接口错误率突增
  • 基于应用1小时内的历史数据,形成动态上界,以比对近15分钟的数据是否有异常。支持如下事件类型:应用服务整体流量不均。

功能入口

  1. 登录AOM 2.0控制台。
  2. 左侧导航栏单击“智能洞察(BETA)”。
  3. 在页面右上角设置应用的时间范围。可通过如下两种方式设置时间范围:

    方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。

    方式二:通过开始时间和结束时间,自定义时间范围。

  4. 在过滤器上方的下拉列表中选择需要查看的应用。
  5. 在“智能洞察(BETA)”页面,查看事件总览和详情信息。

过滤器

“过滤器”区域显示了当前时间段被巡检捕获的事件类型和状态,可以通过选择不同的分组查看事件。

图1 过滤器视图
  • 事件类型:事件类型按照事件巡检发现的事件异常类型划分。支持的异常事件类型包括:
    • 应用服务整体平均响应时间突增
    • TopN接口平均响应时间突增
    • 应用服务整体错误率突增
    • TopN接口错误率突增。
    • 应用服务整体流量不均
  • 事件状态:事件状态按照事件巡检发现事件的状态进行划分。若异常事件正在发生则为“进行中”,若异常事件已经结束则为“已结束”。

事件总览

在“智能洞察(BETA)”主页面,默认以柱状图形式展示近30分钟的所有事件。您可以根据需要调整时间范围,查看近1小时、近6小时、近1天、近1周或自定义时间段的事件。

图2 事件统计视图

在事件统计图区域,还可以执行以下操作:

  • 在图表左上角,查看设置的时间段内事件巡检检测到的异常事件总数。
  • 将鼠标悬浮于柱状图上,查看对应时间点各类型的事件数量。
  • 单击柱状图上方的图例,可以隐藏或显示对应事件类型的数据。
  • 在搜索栏根据关键字过滤显示需要查看的事件。

事件卡片(列表)展示

在页面右上角单击可切换事件展示形式,单击切换为卡片形式展示,单击切换为列表展示。

事件卡片(列表)中展示设置的时间段内事件巡检检测到的异常事件。

每个事件包含以下基本信息:

  • 事件类型:展示事件的异常类型。
  • 事件描述:描述事件发生的组件、接口。
  • 事件触发时间:展示首个异常点出现的时间。
  • 持续时长:展示异常持续恶化的时长。
图3 按卡片形式展示事件
图4 按照列表形式展示事件

事件详情

单击事件卡片或列表,进入事件详情页面。在事件详情页面,事件巡检将提供RT、错误率等关键指标的检测图示,在图中展示异常时间段,并标注首个异常点及其上界。

  • 应用服务整体平均响应时间突增:基于应用历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。
    图5 应用服务整体平均响应时间突增
  • 应用服务整体错误率突增:基于应用历史3小时数据,判断最近10分钟应用错误率是否有异常突增点。
    图6 应用服务整体错误率突增
  • TopN接口平均响应时间突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。
    图7 TopN接口平均响应时间突增
  • TopN接口错误率突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟错误率是否有异常突增点。
    图8 TopN接口错误率突增
  • 应用服务整体流量不均:基于应用历史1小时数据,判断最近15分钟应用的所有实例是否出现流量不均的情况。
    图9 应用服务整体流量不均

相关文档