更新时间:2024-01-26 GMT+08:00

监控概述

CCE配合AOM对集群进行全方位的监控,在创建节点时会默认安装AOM的ICAgent(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent默认采集集群底层资源以及运行在集群上负载的监控数据;另外,ICAgent还能采集负载的自定义指标监控数据。

  • 资源监控指标

    资源基础监控包含CPU/内存/磁盘等,具体请参见资源监控指标。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。

  • 自定义指标

    ICAgent采集应用程序中的自定义指标并上传到AOM,具体使用方法请参见使用AOM监控自定义指标

资源监控指标

在CCE控制台,可以查看如下指标。

在AOM控制台,可以查看主机指标和容器实例的指标。

查看集群监控数据

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧导航栏单击“集群信息”,在右侧可看到集群所有节点(不含控制节点)近一小时的CPU指标和内存指标,以及控制节点的状态、所在可用区、CPU使用率和内存使用率等信息。

    表1 集群监控指标

    监控指标

    指标含义

    CPU分配率

    分配给工作负载使用的CPU占比。

    CPU分配率 = 集群下运行的Pod CPU配额申请值(Request)之和 / 集群下所有节点(不含控制节点)的CPU可分配量之和

    内存分配率

    分配给工作负载使用的内存占比。

    内存分配率 = 集群下运行的Pod 内存配额申请值(Request)之和 / 集群下所有节点(不含控制节点)的内存可分配量之和

    CPU使用率

    集群CPU使用率。

    CPU使用率 = 集群下所有节点(不含控制节点)上实际使用的CPU使用率的平均值

    内存使用率

    集群内存使用率。

    内存使用率 = 集群下所有节点(不含控制节点)上实际使用的内存使用率的平均值

    节点资源(CPU或内存)可分配量=总量-预留值-驱逐阈值。详情请参见节点预留资源策略说明

查看节点监控数据

除了在集群监控界面查看所有节点监控数据外,您还可以查看单个节点的监控数据。

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧导航栏选择“节点管理”,在右侧节点所在行单击“监控”即可查看节点监控数据。
  3. 您可以自定义调整数据的统计方式及时间范围。监控数据来源于AOM,可查看节点的监控数据包括CPU、内存、磁盘、网络、GPU等。

    表2 节点监控指标

    监控指标

    指标含义

    CPU使用率

    节点CPU使用率。

    CPU使用率 = CPU内核占用 / CPU总核数

    CPU内核占用

    已实际使用的CPU核个数。

    物理内存使用率

    节点物理内存使用率。

    内存使用率 = (物理内存容量 - 可用物理内存) / 物理内存容量

    可用物理内存

    节点尚未被使用的物理内存。

    磁盘使用率

    节点数据盘上文件系统的磁盘使用率,根据文件分区分别计算。数据盘分区详情请参见数据盘空间分配说明

    磁盘使用率 = (磁盘容量 - 可用磁盘空间) / 磁盘容量

    可用磁盘空间

    还未经使用的磁盘空间,单位为GiB。

    下行速率

    一般指从网络下载数据到节点的速度,单位为KB/s。

    上行速率

    一般指从节点上传网络的速度,单位为KB/s。

    GPU使用率

    节点GPU使用率。

    显存使用率

    已使用的显存占显存容量的百分比。

    显存使用率 = 显存使用量 / 显存容量

    显存使用量

    已使用的显存大小,单位为GiB。

查看工作负载的监控数据

工作负载的监控数据可以在工作负载详情的监控页面下查看。

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧导航栏选择“工作负载”,在右侧工作负载所在行单击“监控”即可查看工作负载监控数据。
  3. 您可以自定义调整数据的统计方式及时间范围。监控数据来源于AOM,可查看工作负载的监控数据包括CPU、内存、网络、GPU等。

    如果工作负载有多个实例,监控数据可能根据“统计方式”而不同。例如,当选择“最大/最小值”时,各监控数据的取值为该工作负载下所有实例的最大/最小值。选择“平均值”时,各监控数据的取值为该工作负载下所有实例的平均值。

    表3 工作负载监控指标

    监控指标

    指标含义

    CPU使用率

    工作负载的CPU使用率。

    CPU使用率 = CPU内核占用 / 所有业务容器CPU核数限制值之和(未配置限制值时采用节点总量)

    CPU内核占用

    已实际使用的CPU核个数。

    物理内存使用率

    工作负载的物理内存使用率。

    内存使用率 = 物理内存使用量 / 所有业务容器CPU核数限制值之和(未配置限制值时采用节点总量)

    物理内存使用量

    已实际使用的物理内存。

    磁盘读取速率

    每秒从磁盘读出的数据量,单位为KB/s。

    磁盘写入速率

    每秒写入磁盘的数据量,单位为KB/s。

    下行速率

    一般指从网络下载数据的速度,单位为KB/s。

    上行速率

    一般指从节点上传网络的速度,单位为KB/s。

    GPU使用率

    工作负载GPU使用率。

    显存使用率

    已使用的显存占显存容量的百分比。

    显存使用率 = 显存使用量 / 显存容量

    显存使用量

    已使用的显存大小,单位为GiB。

查看容器实例Pod的监控数据

在工作负载详情页面的实例列表页签中可以查看Pod的监控数据。

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧导航栏选择“工作负载”,在右侧单击工作负载名称,查看实例列表。
  3. 在实例所在行单击“监控”即可查看某个实例的监控数据。
  4. 您可以自定义调整数据的统计方式及时间范围。监控数据来源于AOM,可查看实例的监控数据包括CPU、内存、网络、GPU等。

    如果单个实例下存在多个容器,监控数据可能根据“统计方式”而不同。例如,当选择“最大/最小值”时,各监控数据的取值为该实例下所有容器的最大/最小值。选择“平均值”时,各监控数据的取值为该实例下所有容器的平均值。

    表4 实例监控指标

    监控指标

    指标含义

    CPU使用率

    Pod的CPU使用率。

    CPU使用率 = Pod实际使用的CPU核数 / Pod中所有业务容器CPU核数限制值之和(未配置限制值时采用节点总量)

    CPU内核占用

    已实际使用的CPU核个数。

    物理内存使用率

    Pod的物理内存使用率。

    内存使用率 = Pod实际使用的物理内存 / Pod中所有业务容器物理内存限制值之和(未配置限制值时采用节点总量)

    物理内存使用量

    已实际使用的物理内存。

    磁盘读取速率

    每秒从磁盘读出的数据量,单位为KB/s。

    磁盘写入速率

    每秒写入磁盘的数据量,单位为KB/s。

    下行速率

    一般指从网络下载数据的速度,单位为KB/s。

    上行速率

    一般指从节点上传网络的速度,单位为KB/s。

    GPU使用率

    Pod的GPU使用率。

    显存使用率

    已使用的显存占显存容量的百分比。

    显存使用率 = 显存使用量 / 显存容量

    显存使用量

    Pod已使用的显存大小,单位为GiB。