应用运维管理 AOM
应用运维管理 AOM
- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- 通过IAM授予使用AOM的权限
- 接入AOM
- 接入AOM(新版)
- 可观测指标浏览
- 仪表盘监控
- 告警监控
- 日志管理(新版)
- 日志管理(旧版)
-
Prometheus监控
- Prometheus监控概述
- 管理Prometheus实例
- 管理Prometheus实例指标数据
- 使用Prometheus监控CCE集群指标
- 配置多账号聚合实现指标统一监控
- 配置CCE集群监控采集指标规则
- 配置预聚合规则提升指标查询效率
- 配置数据多写实现监控指标转储到自建Prometheus
- 配置指标存储时长
- 通过仪表盘监控Prometheus实例指标数据
- 配置Remote Read地址实现自建Prometheus读取AOM的Prometheus数据
- 配置Remote Write地址实现自建Prometheus数据上报到AOM
- 通过Grafana查看Prometheus实例数据
- 查看Prometheus实例指标上报量
- 基础设施监控
- 云服务监控
- 应用监控
- 智能洞察(BETA)
- Web监控
- App监控
- 应用洞察
- 运维管理
- 全局设置
- 查看AOM审计事件
- 迁移AOM 1.0数据至AOM 2.0
- 最佳实践
-
常见问题
- 仪表盘
- 告警管理
- 日志分析
- Prometheus监控
- 基础设施监控
- 应用监控
-
采集管理
- ICAgent和UniAgent是同一个插件吗?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 在主机上手工安装ICAgent后提示安装成功,但UniAgent安装与配置界面显示状态异常?
- ICAgent安装成功后,无法在界面上获取到ICAgent状态
- ICAgent安装成功后,AOM中无法监控到CPU内存使用率等信息
- 如何获取AK/SK?
- UniAgent和ICAgent安装类常见问题
- 如何在VPCEP控制台为AOM/LTS创建终端节点?
- 如何启用NGINX stub_status模块?
- APM指标数据未采集上来,可能有哪些原因?
- ECS主机上执行UniAgent安装命令,下载安装脚本失败
- 应用资源管理(即将下线)
- 运维管理(即将下线)
- 其他常见问题
- 视频帮助
- API参考
- SDK参考
- 场景代码示例
-
AOM 1.0 文档
- 产品介绍(1.0)
- 快速入门(1.0)
- 用户指南(1.0)
- 最佳实践(1.0)
-
常见问题(1.0)
- 用户高频问题
- 常见咨询问题
-
常见使用问题
- 没有消息通知服务的访问权限?
- 资源运行异常怎么办?
- 如何设置全屏模式在线时长?
- 日志配额已达到90%或已满怎么办?
- 如何获取AK/SK?
- 如何查询服务不可用时间?
- AOM告警规则状态为什么显示“数据不足”?
- 正常状态的工作负载,AOM界面显示异常是什么原因?
- 如何创建委托apm_admin_trust?
- 如何通过创建委托获取AK/SK?
- 日志费用说明
- 在控制台查看不到日志怎么办?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 安装了ICAgent,但是监控不到主机是什么原因?
- 安装ICAgent过程中,系统提示“no crontab for root”是什么原因?
- AOM配置日志转储时无法选中obs桶是什么原因?
- Grafana无法展示内容是什么原因?
- 视频帮助(1.0)
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
查看AOM告警或事件
“告警列表”页面提供告警和事件的查询和处理功能,便于您更快地发现、定位并恢复故障。
功能介绍
- 在告警列表中,有以下关键功能:
- 告警列表:支持按告警级别图形化查看告警信息。
- 高级过滤:支持在搜索框中按告警级别 、告警源、告警关键字等条件进行过滤,默认按照告警级别过滤。
- 告警清除:支持单个、批量清除告警。
- 告警详情:在告警详情中查看告警对象的信息和修复建议,所有的告警都提供修复建议。
- 在事件列表中,有以下关键功能:
- 事件列表:支持按事件级别图形化查看事件信息。
- 高级过滤:支持在搜索框中按事件级别 、事件源、事件关键字等条件进行过滤,默认按照事件级别过滤。
- 事件清除:支持单个、批量清除事件。
约束与限制
- 指标类告警规则触发的告警,默认持续时长为5天,超过5天将自动清除,转为历史告警。
- 当前仅华南-广州区域“告警管理”菜单名称更名为“告警中心”,“告警行动规则”菜单名称更名为“告警通知”,“告警行动规则”页签名称更改为“通知规则管理”。
查看AOM告警或事件
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警管理 > 告警列表”。当前仅华南-广州区域的菜单路径为“告警中心 > 告警列表”。
- 单击“告警”或“事件”页签,查看告警或事件信息。
- 设置时间范围,查看已设时间范围内产生的告警或事件。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为31天。
- 设置告警或事件信息的刷新频率。单击
,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。
- 设置搜索条件后,单击
,查看在已设时间范围内满足搜索条件的告警或事件。支持在搜索框中过滤搜索告警或事件。
表1 搜索条件说明 搜索条件
搜索条件说明
设置样例
告警级别/事件级别
支持选择如下告警或事件级别进行搜索:- 紧急
- 重要
- 次要
- 提示
告警级别:重要,即可查询出指定时间范围内告警级别为“重要”的告警。
资源类型
支持选择资源类型别进行搜索。
资源类型:Host,即可查询出指定时间范围内资源类型为“Host”的告警。
告警源/事件源
支持选择告警源搜索告警,或者选择事件源搜索事件。
告警源:AOM,即可查询出指定时间范围内告警源为“AOM”的告警。
告警关键字/事件关键字
- 告警关键字:支持按告警名称 、 告警源、资源类型等告警关键字进行模糊查询。搜索框的筛选条件设置为“告警关键字”,然后输入关键字信息。
- 事件关键字:支持按事件名称 、 事件源、资源类型等事件关键字进行模糊查询。搜索框的筛选条件设置为“事件关键字”,然后输入关键字信息。
告警关键字:AOMRule,其中AOMRule为告警名称,即可查询出指定时间范围内告警名称为“AOMRule”的告警。
自定义属性
支持根据告警信息或事件信息中的自定义属性进行精确查询。
搜索框的筛选条件设置为“自定义属性”,然后输入自定义属性信息“自定义属性名称=自定义属性值”。
自定义属性:nodeIP=192.168.0.106,即可查询出指定时间范围内自定义属性主机IP(nodeIP)为192.168.0.106的相关告警。
- 您可参考表2执行如下操作:
表2 操作说明 操作
说明
查看告警或事件统计数据
单击
,可通过柱状图查看在指定时间范围内和搜索条件下告警或事件的统计数据。
清除告警
告警故障已经解除时可进行清除操作。
- 清除一个告警:单击目标告警所在“操作”列中的“
”。
- 清除一个或多个告警:选中一个或多个告警前的复选框,在弹出框单击“批量清除”。
查看告警详情
单击告警名称可查看告警详情,包括告警信息和修复建议,如果在创建告警规则时关联了告警行动规则(告警通知规则)或告警降噪规则,还可查看行动规则(通知规则)或告警降噪规则相关信息。
- 在“告警信息”页签下单击告警规则、日志组、日志流等蓝色字体可下钻到具体详情页面,查看更详细的数据。
- 在华东-上海一区域查看告警时支持以下功能:
- 告警源为LTS的告警:单击告警详情页中日志组、日志流、关键词、查询语句可跳转到具体详情页面,查看更详细的数据。
- 关联CCE类型Prometheus实例的告警规则触发的告警:单击告警详情页中涉及容器相关资源的cluster_name、node、pod、container时,可以跳转至AOM的系统内置仪表盘中查询相应时间的指标曲线。
- 规则类型为应用性能监控的告警规则触发的告警:单击告警详情页的应用、组件、环境,可跳转至组件详情页。
查看事件详情
单击事件名称可查看事件详情和修复建议。
查看已清除告警
在右上角单击“活动告警”,在下拉列表中选择“历史告警”,可查看被清除的告警。
- 清除一个告警:单击目标告警所在“操作”列中的“
父主题: 告警监控