应用运维管理 AOM
应用运维管理 AOM
- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- 通过IAM授予使用AOM的权限
- 接入AOM
- 接入AOM(新版)
- 可观测指标浏览
- 仪表盘监控
- 告警监控
- 日志管理(新版)
- 日志管理(旧版)
-
Prometheus监控
- Prometheus监控概述
- 管理Prometheus实例
- 管理Prometheus实例指标数据
- 使用Prometheus监控CCE集群指标
- 配置多账号聚合实现指标统一监控
- 配置CCE集群监控采集指标规则
- 配置预聚合规则提升指标查询效率
- 配置数据多写实现监控指标转储到自建Prometheus
- 配置指标存储时长
- 通过仪表盘监控Prometheus实例指标数据
- 配置Remote Read地址实现自建Prometheus读取AOM的Prometheus数据
- 配置Remote Write地址实现自建Prometheus数据上报到AOM
- 通过Grafana查看Prometheus实例数据
- 查看Prometheus实例指标上报量
- 基础设施监控
- 云服务监控
- 应用监控
- 智能洞察(BETA)
- Web监控
- App监控
- 应用洞察
- 运维管理
- 全局设置
- 查看AOM审计事件
- 迁移AOM 1.0数据至AOM 2.0
- 最佳实践
-
常见问题
- 仪表盘
- 告警管理
- 日志分析
- Prometheus监控
- 基础设施监控
- 应用监控
-
采集管理
- ICAgent和UniAgent是同一个插件吗?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 在主机上手工安装ICAgent后提示安装成功,但UniAgent安装与配置界面显示状态异常?
- ICAgent安装成功后,无法在界面上获取到ICAgent状态
- ICAgent安装成功后,AOM中无法监控到CPU内存使用率等信息
- 如何获取AK/SK?
- UniAgent和ICAgent安装类常见问题
- 如何在VPCEP控制台为AOM/LTS创建终端节点?
- 如何启用NGINX stub_status模块?
- APM指标数据未采集上来,可能有哪些原因?
- ECS主机上执行UniAgent安装命令,下载安装脚本失败
- 应用资源管理(即将下线)
- 运维管理(即将下线)
- 其他常见问题
- 视频帮助
- API参考
- SDK参考
- 场景代码示例
-
AOM 1.0 文档
- 产品介绍(1.0)
- 快速入门(1.0)
- 用户指南(1.0)
- 最佳实践(1.0)
-
常见问题(1.0)
- 用户高频问题
- 常见咨询问题
-
常见使用问题
- 没有消息通知服务的访问权限?
- 资源运行异常怎么办?
- 如何设置全屏模式在线时长?
- 日志配额已达到90%或已满怎么办?
- 如何获取AK/SK?
- 如何查询服务不可用时间?
- AOM告警规则状态为什么显示“数据不足”?
- 正常状态的工作负载,AOM界面显示异常是什么原因?
- 如何创建委托apm_admin_trust?
- 如何通过创建委托获取AK/SK?
- 日志费用说明
- 在控制台查看不到日志怎么办?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 安装了ICAgent,但是监控不到主机是什么原因?
- 安装ICAgent过程中,系统提示“no crontab for root”是什么原因?
- AOM配置日志转储时无法选中obs桶是什么原因?
- Grafana无法展示内容是什么原因?
- 视频帮助(1.0)
- 文档下载
- 通用参考
链接复制成功!
通过AOM查看事件巡检数据
事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。
功能说明
事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。
获取基础数据时间范围如下:
- 基于应用3小时内的历史数据,形成动态上界,以比对近10分钟的数据是否有异常。支持如下事件类型:
- 应用服务整体平均响应时间突增
- TopN接口平均响应时间突增
- 应用服务整体错误率突增
- TopN接口错误率突增
- 基于应用1小时内的历史数据,形成动态上界,以比对近15分钟的数据是否有异常。支持如下事件类型:应用服务整体流量不均。
查看事件巡检数据
- 登录AOM 2.0控制台。
- 左侧导航栏单击“智能洞察(BETA)”。
- 在页面右上角设置应用的时间范围,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围。
- 在过滤器上方的下拉列表中选择需要查看的应用。
- 设置过滤器对事件巡检数据进行过滤。“过滤器”区域显示了当前时间段被巡检捕获的事件类型和状态,可以通过选择不同的分组查看事件。
过滤器支持按如下类型进行过滤。
- 事件类型:按照事件巡检发现的事件异常类型划分。支持的异常事件类型包括:
- 应用服务整体平均响应时间突增:基于应用历史3小时数据,判断最近10分钟应用服务整体平均响应时间是否有异常突增点。
- TopN接口平均响应时间突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟Top 5接口平均响应时间是否有异常突增点。
- 应用服务整体错误率突增:基于应用历史3小时数据,判断最近10分钟应用服务整体错误率是否有异常突增点。
- TopN接口错误率突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟Top 5接口错误率是否有异常突增点。
- 应用服务整体流量不均:基于应用历史1小时数据,判断最近15分钟应用服务所有实例是否出现流量不均的情况。
- 事件状态:按照事件巡检发现事件的状态进行划分。
- 进行中:如果异常事件正在发生则为“进行中”。
- 已结束:如果异常事件已经结束则为“已结束”。
- 事件类型:按照事件巡检发现的事件异常类型划分。支持的异常事件类型包括:
- 查看事件总览、事件卡片(列表)和事件详情信息。
- 查看事件总览
在“智能洞察(BETA)”主页面,默认以柱状图形式展示近30分钟的所有事件。您可以根据需要调整时间范围,查看近1小时、近6小时、近1天、近1周或自定义时间段的事件。
图1 事件统计视图在事件统计图区域,您还可以执行以下操作:
- 在图表左上角,查看设置的时间段内事件巡检检测到的异常事件总数。
- 将鼠标悬浮于柱状图上,查看对应时间点各类型的事件数量。
- 单击柱状图上方的图例,可以隐藏或显示对应事件类型的数据。
- 在搜索栏根据关键字过滤显示需要查看的事件。
- 查看事件卡片(列表)
事件卡片(列表)中展示设置的时间段内事件巡检检测到的异常事件。您可以单击页面右上角
切换事件展示形式,以卡片视角或列表视角展示事件。每个事件包含以下基本信息:
- 事件类型:展示事件的异常类型。
- 事件描述:描述事件发生的组件、接口。
- 事件触发时间:展示首个异常点出现的时间。
- 持续时长:展示异常持续恶化的时长。
图2 按卡片形式展示事件图3 按列表形式展示事件 - 查看事件详情
您可以单击不同类型的事件卡片或列表,进入事件详情页面。在事件详情页面,事件巡检将提供RT、错误率等关键指标的检测图示,在图中展示异常时间段,并标注首个异常点及其上界。
- 应用服务整体平均响应时间突增事件详情:
图4 应用服务整体平均响应时间突增
- 应用服务整体错误率突增事件详情:
图5 应用服务整体错误率突增
- TopN接口平均响应时间突增事件详情:
图6 TopN接口平均响应时间突增
- TopN接口错误率突增事件详情:
图7 TopN接口错误率突增
- 应用服务整体流量不均事件详情:
图8 应用服务整体流量不均
- 应用服务整体平均响应时间突增事件详情:
- 查看事件总览
父主题: 智能洞察(BETA)