更新时间:2024-08-17 GMT+08:00

XGPU视图

XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。

指标说明

图1 XGPU资源指标
表1 XGPU视图图表说明

图表名称

单位

说明

集群-XGPU设备显存使用率

百分比

集群的GPU虚拟化设备显存使用率

计算公式:集群中所有XGPU设备的显存使用量之和 / 集群显存总量

集群-XGPU设备算力使用率

百分比

集群的GPU虚拟化设备算力使用率

计算公式:集群中所有XGPU设备的算力使用量之和 / 集群算力总量

节点-XGPU设备显存使用率

百分比

每个节点的GPU虚拟化设备显存使用率

计算公式:节点上所有XGPU设备的显存使用量之和 / 节点显存总量

节点-XGPU设备算力使用率

百分比

每个节点的GPU虚拟化设备算力使用率

计算公式:节点上所有XGPU设备的算力使用量之和 / 节点算力总量

节点-XGPU设备数量

每个节点的GPU虚拟化设备数量

节点-XGPU设备显存分配量

字节

每个节点上的GPU虚拟化设备显存总量

GPU卡-XGPU设备显存使用率

百分比

每张GPU卡上的GPU虚拟化设备显存使用率

计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量

GPU卡-XGPU设备显存分配量

字节

每张GPU卡上的GPU虚拟化设备的显存总量

GPU卡-XGPU设备显存分配率

百分比

每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例

计算公式:显卡上所有XGPU设备能使用的显存上限之和 / 显卡显存总量

GPU卡-XGPU设备算力使用率

百分比

每张GPU卡的GPU虚拟化设备的算力使用率

计算公式:显卡上所有XGPU设备当前所使用的算力之和 / 显卡算力总量

GPU卡-XGPU设备数量

每张GPU卡的GPU虚拟设备的数量

GPU卡-调度策略

数字

  • 0为显存隔离算力共享模式
  • 1为显存算力隔离模式
  • 2为默认模式表示当前卡还没被用于XGPU设备分配

GPU卡-不健康的XGPU设备数量

每张GPU卡的不健康的GPU虚拟化设备的数量

容器显存分配量

字节

容器所能使用的显存上限

容器算力使用率

百分比

每个容器的算力使用率

计算公式:XGPU设备上容器算力使用量 / XGPU设备算力总量

容器显存使用量

字节

每个容器的显存使用量

容器显存使用率

百分比

每个容器的显存使用率

计算公式:XGPU设备上容器显存使用量 / XGPU设备显存总量

指标清单

XGPU视图使用的指标清单如下:
表2 XGPU指标说明

指标名称

类型

说明

xgpu_memory_total

Gauge

XGPU显存总量

xgpu_memory_used

Gauge

XGPU显存使用量

xgpu_core_percentage_total

Gauge

XGPU算力总量

xgpu_core_percentage_used

Gauge

XGPU算力使用率

gpu_schedule_policy

Gauge

GPU模式分成0、1、2三种,具体说明如下:

  • 0为显存隔离算力共享模式
  • 1为显存算力隔离模式
  • 2为默认模式表示当前卡还没被用于XGPU设备分配

xgpu_device_health

Gauge

XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。