事件巡检
事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。
功能说明
事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。
- 基于应用3小时内的历史数据,形成动态上界,以比对近10分钟的数据是否有异常。支持如下事件类型:
- 应用服务整体平均响应时间突增
- TopN接口平均响应时间突增
- 应用服务整体错误率突增
- TopN接口错误率突增
- 基于应用1小时内的历史数据,形成动态上界,以比对近15分钟的数据是否有异常。支持如下事件类型:应用服务整体流量不均。
功能入口
- 登录AOM 2.0控制台。
- 左侧导航栏单击“智能洞察(BETA)”。
- 在页面右上角设置应用的时间范围。可通过如下两种方式设置时间范围:
方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。
方式二:通过开始时间和结束时间,自定义时间范围。
- 在过滤器上方的下拉列表中选择需要查看的应用。
- 在“智能洞察(BETA)”页面,查看事件总览和详情信息。
过滤器
“过滤器”区域显示了当前时间段被巡检捕获的事件类型和状态,可以通过选择不同的分组查看事件。
- 事件类型:事件类型按照事件巡检发现的事件异常类型划分。支持的异常事件类型包括:
- 应用服务整体平均响应时间突增
- TopN接口平均响应时间突增
- 应用服务整体错误率突增
- TopN接口错误率突增。
- 应用服务整体流量不均
- 事件状态:事件状态按照事件巡检发现事件的状态进行划分。若异常事件正在发生则为“进行中”,若异常事件已经结束则为“已结束”。
事件总览
在“智能洞察(BETA)”主页面,默认以柱状图形式展示近30分钟的所有事件。您可以根据需要调整时间范围,查看近1小时、近6小时、近1天、近1周或自定义时间段的事件。
在事件统计图区域,还可以执行以下操作:
- 在图表左上角,查看设置的时间段内事件巡检检测到的异常事件总数。
- 将鼠标悬浮于柱状图上,查看对应时间点各类型的事件数量。
- 单击柱状图上方的图例,可以隐藏或显示对应事件类型的数据。
- 在搜索栏根据关键字过滤显示需要查看的事件。
事件卡片(列表)展示
在页面右上角单击可切换事件展示形式,单击切换为卡片形式展示,单击切换为列表展示。
事件卡片(列表)中展示设置的时间段内事件巡检检测到的异常事件。
每个事件包含以下基本信息:
- 事件类型:展示事件的异常类型。
- 事件描述:描述事件发生的组件、接口。
- 事件触发时间:展示首个异常点出现的时间。
- 持续时长:展示异常持续恶化的时长。
事件详情
单击事件卡片或列表,进入事件详情页面。在事件详情页面,事件巡检将提供RT、错误率等关键指标的检测图示,在图中展示异常时间段,并标注首个异常点及其上界。
- 应用服务整体平均响应时间突增:基于应用历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。
图5 应用服务整体平均响应时间突增
- 应用服务整体错误率突增:基于应用历史3小时数据,判断最近10分钟应用错误率是否有异常突增点。
图6 应用服务整体错误率突增
- TopN接口平均响应时间突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。
图7 TopN接口平均响应时间突增
- TopN接口错误率突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟错误率是否有异常突增点。
图8 TopN接口错误率突增
- 应用服务整体流量不均:基于应用历史1小时数据,判断最近15分钟应用的所有实例是否出现流量不均的情况。
图9 应用服务整体流量不均