通过AOM监控集群
集群监控的对象为通过CCE部署的集群。“集群监控”功能可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。
约束与限制
- 主机状态包含“正常”、“异常”、“亚健康”、“通道静默”、“已删除”。当由于网络异常、主机下电、关机等原因导致的主机异常,或主机产生阈值告警时,主机状态为“异常”。
- 如果需要在AOM控制台中使用CCE的功能,需提前获取CCE的相关权限,详情请参见CCE权限管理。
通过AOM监控集群
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“基础设施监控 >容器洞察 > 集群监控”。
- 在页面右上角设置集群信息的统计条件。
- 设置时间范围,查看已设时间范围内上报的CCE集群,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。
- 设置信息的刷新频率。单击
,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。
- 按照按集群名称设置搜索条件,查看需要监控的集群;还可以按照创建时间、CPU使用率、内存使用率对集群进行排序。
集群的节点运行状态或Pods运行状态无异常时,数字显示为绿色。
- 单击集群名称,进入集群监控的详情页面。
- 在左侧导航栏可以按照健康中心、监控中心、日志中心、告警中心实现集群的云原生观测。
- 健康中心
集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查,能够及时发现集群故障与潜在风险并给出修复建议。详情请参见健康中心。
- 监控中心
监控中心提供容器洞察、健康诊断、仪表盘等功能。容器洞察功能提供容器视角的可视化视图,支持集群、节点、工作负载和Pod等多种维度的监控视图,支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘,如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。详情请参见监控中心。
- 日志中心
日志中心集成了云日志服务LTS。启用日志采集与管理,您可以快速采集CCE控制面组件日志(kube-apiserver、kube-controller-manager、kube-scheduler)、kubernetes审计日志、Kubernetes事件和容器日志(容器的标准输出、容器内的文本文件、节点日志)。详情请参见日志中心。
- 告警中心
告警中心集成应用运维管理服务AOM2.0的告警功能,提供容器告警一键开启能力,覆盖集群和容器常见故障场景。详情请参见告警中心。
- 健康中心
- 在左侧导航栏可以按照健康中心、监控中心、日志中心、告警中心实现集群的云原生观测。