集群监控

当您想观测整个集群的资源使用情况和健康度时，可以在“监控中心 > 集群”页面查看，该页面提供了单个集群的监控情况，包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。

功能入口

登录CCE控制台，单击集群名称进入集群。
在左侧导航栏中选择“监控中心”，单击“集群”页签。

集群健康度

集群健康度评估包括多个维度，如健康评分、待处理风险项数、风险等级，以及诊断风险项在集群、核心插件、节点、工作负载和外部依赖五个方面的占比（异常数据使用红色突出显示）。欲了解更多诊断结果，请前往健康中心页面查看。

图1 集群健康度

健康概况

资源健康概况

资源健康概况涵盖了节点、工作负载和Pod三类资源中异常资源所占比例，以及命名空间的总数，以便及时发现和解决业务异常。

控制面健康概况

除了控制面组件和控制节点的异常占比，控制面资源概况中还提供了API Server的总QPS和请求错误率指标。作为集群的API服务提供者，控制面API Server的异常可能会导致整个集群无法访问，同时也会影响依赖API Server的工作负载的正常运行，QPS和请求错误率可以帮助您快速识别和修复问题。

图2 健康概况

资源消耗Top统计

在资源消耗Top统计中，CCE服务会将CPU使用率和内存使用率排名前五的节点、无状态负载、有状态负载和Pod纳入统计范围，以帮助您识别资源消耗“大户”。如果您需要查看全部数据，可前往节点、工作负载或Pod页面。

图3 资源消耗Top统计
点击放大

监控名词解释：

CPU使用率
- 节点CPU使用率 = 节点的CPU非空闲时间所占的平均比例。
- 工作负载CPU使用率 = 工作负载各个Pod中CPU使用率的平均值
- Pod CPU使用率 = Pod实际使用的CPU核数 / 业务容器CPU核数限制值之和（未配置限制值时采用节点总量）
内存使用率
- 节点内存使用率 = 节点的内存使用量除以节点的内存总量。
- 工作负载内存WorkingSet使用率：工作负载的所有Pod的WorkingSet内存使用总量 / 工作负载的所有Pod的内存限制值总和（未配置限制值时无数据）
- 工作负载物理内存使用率：工作负载的所有Pod的物理内存使用总量 / 工作负载的所有Pod的内存限制值总和（未配置限制值时无数据）
- Pod内存WorkingSet使用率：Pod的所有容器 WorkingSet内存使用总量 / Pod的所有容器的内存限制值总和（未配置限制值时无数据）
- Pod物理内存使用率：Pod的所有容器物理内存使用总量 / Pod的所有容器的内存限制值总和（未配置限制值时无数据）