集群监控
当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。
功能入口
- 登录CCE控制台,单击集群名称进入集群详情页。
- 在左侧导航栏中选择“监控中心”,单击“集群”页签。
集群健康度
集群健康度评估包括多个维度,如健康评分、待处理风险项数、风险等级,以及诊断风险项在Master、集群、节点、工作负载和外部依赖五个方面的占比(异常数据使用红色突出显示)。欲了解更多诊断结果,请前往健康中心页面查看。
健康概况
资源健康概况
资源健康概况涵盖了节点、工作负载和Pod三类资源中异常资源所占比例,以及命名空间的总数,以便及时发现和解决业务异常。
控制面健康概况
除了控制面组件和Master节点的异常占比,控制面资源概况中还提供了API Server的总QPS和请求错误率指标。作为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。
资源消耗Top统计
在资源消耗Top统计中,CCE服务会将CPU使用率和内存使用率排名前五的节点、无状态负载、有状态负载和Pod纳入统计范围,以帮助您识别资源消耗“大户”。如果您需要查看全部数据,可前往节点、工作负载或Pod页面。
监控名词解释:
- CPU使用率
- 节点CPU使用率 = 节点的CPU非空闲时间所占的平均比例。
- 工作负载CPU使用率 = 工作负载各个Pod中CPU使用率的平均值
- Pod CPU使用率 = Pod实际使用的CPU核数 / 业务容器CPU核数限制值之和(未配置限制值时采用节点总量)
- 内存使用率
- 节点内存使用率 = 节点的内存使用量除以节点的内存总量。
- 工作负载内存使用率 = 工作负载各个Pod中内存使用率的平均值
- Pod内存使用率 = Pod实际使用的物理内存 / 业务容器物理内存限制值之和(未配置限制值时采用节点总量)
数据面监控
此处默认统计近1小时、近8小时和近24小时的各维度资源用量。如需查看更多监控信息,请单击“查看全部监控”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。
您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。
- CPU:单位时间内集群CPU使用情况的统计。
- 内存:单位时间内集群内存使用情况的统计。
- PVC存储状态:PVC和PV的绑定情况。
- Pod数量状态趋势:实时监控集群Pod的状态。
- Pod总重启次数趋势:近5分钟的集群的Pod重启次数总和。
- 节点状态趋势:实时监控集群节点的状态。