- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- 通过IAM授予使用AOM的权限
- 接入AOM
- 接入AOM(新版)
- 可观测指标浏览
- 仪表盘监控
- 告警监控
- 日志管理(新版)
- 日志管理(旧版)
-
Prometheus监控
- Prometheus监控概述
- 管理Prometheus实例
- 管理Prometheus实例指标数据
- 使用Prometheus监控CCE集群指标
- 配置多账号聚合实现指标统一监控
- 配置CCE集群监控采集指标规则
- 配置预聚合规则提升指标查询效率
- 配置数据多写实现监控指标转储到自建Prometheus
- 配置指标存储时长
- 通过仪表盘监控Prometheus实例指标数据
- 配置Remote Read地址实现自建Prometheus读取AOM的Prometheus数据
- 配置Remote Write地址实现自建Prometheus数据上报到AOM
- 通过Grafana查看Prometheus实例数据
- 查看Prometheus实例指标上报量
- 基础设施监控
- 云服务监控
- 应用监控
- 智能洞察(BETA)
- Web监控
- App监控
- 应用洞察
- 运维管理
- 全局设置
- 查看AOM审计事件
- 迁移AOM 1.0数据至AOM 2.0
- 最佳实践
-
常见问题
- 仪表盘
- 告警管理
- 日志分析
- Prometheus监控
- 基础设施监控
- 应用监控
-
采集管理
- ICAgent和UniAgent是同一个插件吗?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 在主机上手工安装ICAgent后提示安装成功,但UniAgent安装与配置界面显示状态异常?
- ICAgent安装成功后,无法在界面上获取到ICAgent状态
- ICAgent安装成功后,AOM中无法监控到CPU内存使用率等信息
- 如何获取AK/SK?
- UniAgent和ICAgent安装类常见问题
- 如何在VPCEP控制台为AOM/LTS创建终端节点?
- 如何启用NGINX stub_status模块?
- APM指标数据未采集上来,可能有哪些原因?
- ECS主机上执行UniAgent安装命令,下载安装脚本失败
- 应用资源管理(即将下线)
- 运维管理(即将下线)
- 其他常见问题
- 视频帮助
- API参考
- SDK参考
- 场景代码示例
-
AOM 1.0 文档
- 产品介绍(1.0)
- 快速入门(1.0)
- 用户指南(1.0)
- 最佳实践(1.0)
-
常见问题(1.0)
- 用户高频问题
- 常见咨询问题
-
常见使用问题
- 没有消息通知服务的访问权限?
- 资源运行异常怎么办?
- 如何设置全屏模式在线时长?
- 日志配额已达到90%或已满怎么办?
- 如何获取AK/SK?
- 如何查询服务不可用时间?
- AOM告警规则状态为什么显示“数据不足”?
- 正常状态的工作负载,AOM界面显示异常是什么原因?
- 如何创建委托apm_admin_trust?
- 如何通过创建委托获取AK/SK?
- 日志费用说明
- 在控制台查看不到日志怎么办?
- 如何处理界面“ICAgent状态”为“离线”的问题?
- 安装了ICAgent,但是监控不到主机是什么原因?
- 安装ICAgent过程中,系统提示“no crontab for root”是什么原因?
- AOM配置日志转储时无法选中obs桶是什么原因?
- Grafana无法展示内容是什么原因?
- 视频帮助(1.0)
- 文档下载
- 通用参考
链接复制成功!
通过AOM监控集群
集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。
约束与限制
- 主机状态包含“正常”、“异常”、“亚健康”、“通道静默”、“已删除”。当由于网络异常、主机下电、关机等原因导致的主机异常,或主机产生阈值告警时,主机状态为“异常”。
- 如果需要在AOM控制台中使用CCE的功能,需提前获取CCE的相关权限,详情请参见CCE权限管理。
通过AOM监控集群
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“基础设施监控 > 集群监控”。
- 在页面右上角设置集群信息的统计条件。
- 设置时间范围,查看已设时间范围内上报的CCE集群,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。
- 设置信息的刷新频率。单击
,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。
- 按创建时间、CPU使用率、集群名称等设置搜索条件,查看需要监控的集群。
- 单击集群名称,进入集群监控的详情页面。
- 在左侧导航栏可以按照健康中心、监控中心、日志中心、告警中心实现集群的云原生观测。(当前仅非洲-约翰内斯堡区域不开放。)
- 健康中心
集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查,能够及时发现集群故障与潜在风险并给出修复建议。详情请参见健康中心。
- 监控中心
监控中心提供容器洞察、健康诊断、仪表盘等功能。容器洞察功能提供容器视角的可视化视图,支持集群、节点、工作负载和Pod等多种维度的监控视图,支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘,如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。详情请参见监控中心。
- 日志中心
日志中心集成了云日志服务LTS。启用日志采集与管理,您可以快速采集CCE控制面组件日志(kube-apiserver、kube-controller-manager、kube-scheduler)、kubernetes审计日志、Kubernetes事件和容器日志(容器的标准输出、容器内的文本文件、节点日志)。详情请参见日志中心。
- 告警中心
告警中心集成应用运维管理服务AOM2.0的告警功能,提供容器告警一键开启能力,覆盖集群和容器常见故障场景。详情请参见告警中心。
- 健康中心
- 在左侧的导航栏,可以按集群、告警管理、仪表盘三个维度全面监控集群的运行状态,具体请参见6。(当前仅非洲-约翰内斯堡区域开放。)
- 在左侧导航栏可以按照健康中心、监控中心、日志中心、告警中心实现集群的云原生观测。(当前仅非洲-约翰内斯堡区域不开放。)
- 单击集群名称,进入集群监控的详情页面。在左侧的导航栏,可以按集群、告警管理、仪表盘三个维度全面监控集群的运行状态。
- 按集群维度查看当前集群的节点、工作负载、Pod(容器组)和容器信息。
- 在左侧导航栏选择“洞察 > 节点”,可实时获取到该集群下查看该集群所有主机节点的概况,包括状态、IP地址、Pod状态、CPU使用率和内存使用率等信息。
- 在节点列表上方,可按节点名称设置过滤条件,实现节点列表过滤显示。
- 单击右上角的
,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。
- 单击节点名称,可查看主机的相关资源、告警、事件等信息,并监控显卡、网卡等常用系统设备。
- 在“概览”页签下,默认选择“云原生监控(New)”,可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”,在下拉列表中选择需要监控的Prometheus实例,可查看CPU、物理内存、主机状态等信息。
使用“云原生监控(New)”功能,需要接入容器 CCE Prometheus 实例。若集群还没有接入容器 CCE Prometheus 实例,可以单击页面中的“Prometheus监控”,创建Prometheus实例,详情请参见Prometheus实例 for CCE。创建完成后,单击实例名称,在实例详情页选择“集成中心”,一键接入CCE集群。
单击右上角
,在下拉列表中选择AOM预定义好的时间标签或者自定义时间范围,查看已设时间范围内资源信息。
单击右上角的
,可实时获取到资源的最新信息。
单击右上角的
,可全屏展示资源信息。
- 在“相关资源”页签下,展示该节点所在的容器组。
- 在“概览”页签下,默认选择“云原生监控(New)”,可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”,在下拉列表中选择需要监控的Prometheus实例,可查看CPU、物理内存、主机状态等信息。
- 在左侧导航栏选择“洞察 > 工作负载 ”,可查看该集群的所有工作负载状态和资源使用情况。
- 在工作负载列表上方,可按负载类型和负载名称设置过滤条件,实现工作负载过滤显示。
- 单击右上角的
,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。
- 单击工作负载名称,可查看工作负载的相关资源、告警、事件和仪表盘信息。
- 在“概览”页签下,默认选择“云原生监控(New)”,可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”,在下拉列表中选择需要监控的Prometheus实例,可查看CPU、物理内存、文件系统等信息。
- 在“相关资源”页签下,展示该工作负载所在的容器组。
- 在左侧导航栏选择“洞察 > Pod(容器组)”,可查看该集群的所有Pod状态和资源使用情况。
- 在容器组列表上方,可按容器组名称设置过滤条件,实现容器组过滤显示。
- 单击右上角的
,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。
- 单击容器组名称,可查看容器组的相关资源、告警、事件和仪表盘信息。
- 在“概览”页签下,默认选择“云原生监控(New)”,可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”,在下拉列表中选择需要监控的Prometheus实例,可查看CPU、物理内存、文件系统等信息。
- 在“相关资源”页签下,可按节点和节点名称、工作负载和负载名称、容器和容器名称查看当前容器组下的节点、工作负载、容器。
- 在左侧导航栏选择“洞察 > 容器 ”,可查看该集群的所有容器状态和资源使用情况。
- 在容器列表上方,可按容器名称设置过滤条件,实现容器过滤显示。
- 单击右上角的
,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。
- 单击容器名称,可查看容器的相关资源、告警、事件和仪表盘信息。在“相关资源”页签下,默认展示该容器所在的容器组。可按节点和节点名称、工作负载和负载名称、容器组和容器组名称查看当前容器相关的节点、工作负载、容器组信息。
- 在左侧导航栏选择“洞察 > 节点”,可实时获取到该集群下查看该集群所有主机节点的概况,包括状态、IP地址、Pod状态、CPU使用率和内存使用率等信息。
- 按告警管理维度查看当前集群的运行状态。
- 在左侧导航栏选择“告警管理 > 告警列表”,可查看该集群的告警详情,详情请参见查看AOM告警或事件。
- 在左侧导航栏选择“告警管理 > 事件列表”,查看该集群的事件详情,详情请参见查看AOM告警或事件。
- 在左侧导航栏选择“告警管理 > 告警规则”,查看该集群相关的告警规则,并可根据需要修改,详情请参见管理AOM告警规则。
- 在左侧导航栏选择“仪表盘”,可以查看当前集群的运行状态。
- 已成功接入容器 CCE Prometheus 实例。
- 没有接入容器 CCE Prometheus 实例。
单击页面中的“Prometheus监控”,创建Prometheus实例,详情请参见Prometheus实例 for CCE。创建完成后,单击实例名称,在实例详情页选择“集成中心”,一键接入CCE集群。
- 按集群维度查看当前集群的节点、工作负载、Pod(容器组)和容器信息。