更新时间:2024-06-17 GMT+08:00

查看集群情况

查看集群情况流程

在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为:

查看集群详情

集群详情页面提供了单个集群的监控情况,包含资源概况、资源消耗TOP统计和用量统计多维度的信息概况。通过集群监控您可以及时了解集群的资源使用情况和趋势,快速响应可能存在的风险项,保证集群流畅运行。

您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。

图1 集群详情页面
表1 集群详情页面

词条

词条简介

集群健康度

资源健康度评估包括多个维度,如健康评分、待处理风险项数、风险等级,以及诊断风险项在Master、集群、节点、工作负载和外部依赖五个方面的占比(异常数据使用红色突出显示)。欲了解更多诊断结果,请前往健康诊断页面查看。

须知:

当集群所安装的kube-prometheus-stack插件的部署模式为“Server模式”时,方可以查看集群的资源健康度。

资源健康概况

资源概况涵盖了节点、工作负载和容器组三类资源中异常资源所占比例,以及命名空间的总数。此外,还包括了控制面组件和Master节点的异常占比、API Server总QPS以及API Server请求错误率。

作为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行。为了帮助您快速识别和修复问题,资源概况中提供了API Server的总QPS和请求错误率指标。

资源消耗Top统计

在资源消耗TOP统计中,UCS服务会将CPU使用率和内存使用率排名前五的节点、无状态负载、有状态负载和Pod纳入统计范围,以帮助您识别资源消耗“大户”。

说明:
  • CPU使用率

    工作负载CPU使用率 = 工作负载各个Pod中CPU使用率的平均值

    Pod CPU使用率 = Pod实际使用的CPU核数 / 业务容器CPU核数限制值之和(未配置限制值时采用节点总量)

  • 内存使用率

    工作负载内存使用率 = 工作负载各个Pod中内存使用率的平均值

    Pod内存使用率 = Pod实际使用的物理内存 / 业务容器物理内存限制值之和(未配置限制值时采用节点总量)

数据面监控

此处默认统计近1小时、近8小时和近24小时的各维度资源用量。如需查看更多监控信息,请单击“查看全部监控”,跳转至“仪表盘”页面,相应指导请参见仪表盘