监控概述
CCE配合AOM对集群进行全方位的监控,在创建节点时会默认安装AOM的ICAgent(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent默认采集集群底层资源以及运行在集群上负载的监控数据;另外,ICAgent还能采集负载的自定义指标监控数据。
- 资源监控指标
资源基础监控包含CPU/内存/磁盘等,具体请参见资源监控指标。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。
- 自定义指标
ICAgent采集应用程序中的自定义指标并上传到AOM,具体使用方法请参见自定义监控。
另外您还可以在集群中安装Prometheus插件,使用Prometheus采集监控数据并呈现,具体请参见使用Prometheus插件监控。
资源监控指标
监控指标 |
指标含义 |
---|---|
CPU分配率 |
分配给工作负载使用的CPU占比。 |
内存分配率 |
分配给工作负载使用的内存占比。 |
CPU使用率 |
CPU使用率。 |
内存使用率 |
内存使用率。 |
磁盘使用率 |
磁盘使用率。 |
下行速率 |
一般指从网络下载数据到节点的速度,单位KB/s。 |
上行速率 |
一般指从节点上传网络的速度,单位KB/s。 |
磁盘读取速率 |
每秒从磁盘读出的数据量,单位KB/s。 |
磁盘写入速率 |
每秒写入磁盘的数据量,单位KB/s。 |
查看集群监控数据
在CCE控制台左侧目录中,单击“资源管理 > 集群管理”,单击集群卡片上的监控图标,弹出集群监控视图,如下所示。
集群监控视图会展示集群资源的监控状态、集群所有节点的CPU/内存/磁盘的使用率,以及CPU和内存的分配率。
监控名词解释:
- CPU分配率 = 集群下运行的Pod CPU配额申请值(Request)之和 / 集群下所有节点(不含控制节点)的CPU可分配量之和
- 内存分配率 = 集群下运行的Pod 内存配额申请值(Request)之和 / 集群下所有节点(不含控制节点)的内存可分配量之和
- CPU使用率 = 集群下所有节点(不含控制节点)上实际使用的CPU使用率的平均值。
- 内存使用率 = 集群下所有节点(不含控制节点)上实际使用的内存使用率的平均值。
在集群监控界面下还能查看节点、工作负载、负载实例(Pod)的监控数据,单击后面的图标即可查看详细数据。
查看控制节点监控数据
CCE提供了控制节点(Master节点)监控数据查看方法,在集群详情页面中右上角可以查看控制节点的监控数据,单击监控会跳转到AOM控制台。
查看节点监控数据
除了在集群监控界面查看节点监控数据外,您还可以在节点控制台查看节点监控数据,在节点所在行单击“监控”即可查看。
节点控制台还展示了节点可分配资源的数据。可分配资源按照实例请求值(Request)计算,表示实例在该节点上可请求的资源上限,不代表节点实际可用资源。
计算公式为:
- 可分配CPU = CPU总量 - 所有实例的CPU请求值 - 其他资源CPU预留值
- 可分配内存 = 内存总量 - 所有实例的内存请求值 - 其他资源内存预留值
查看工作负载的监控数据
工作负载的监控数据可以在工作负载详情的监控页面下查看。
您还可以单击“查看详细信息”直接跳转到AOM控制台查看工作负载的监控数据。
查看容器实例Pod的监控数据
在工作负载详情页面的实例列表页签中可以查看Pod的监控数据。
