XGPU视图
XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。
指标说明
图表名称 |
单位 |
说明 |
---|---|---|
集群-XGPU设备显存使用率 |
百分比 |
集群的GPU虚拟化设备显存使用率 计算公式:集群中所有XGPU设备的显存使用量之和 / 集群显存总量 |
集群-XGPU设备算力使用率 |
百分比 |
集群的GPU虚拟化设备算力使用率 计算公式:集群中所有XGPU设备的算力使用量之和 / 集群算力总量 |
节点-XGPU设备显存使用率 |
百分比 |
每个节点的GPU虚拟化设备显存使用率 计算公式:节点上所有XGPU设备的显存使用量之和 / 节点显存总量 |
节点-XGPU设备算力使用率 |
百分比 |
每个节点的GPU虚拟化设备算力使用率 计算公式:节点上所有XGPU设备的算力使用量之和 / 节点算力总量 |
节点-XGPU设备数量 |
个 |
每个节点的GPU虚拟化设备数量 |
节点-XGPU设备显存分配量 |
字节 |
每个节点上的GPU虚拟化设备显存总量 |
GPU卡-XGPU设备显存使用率 |
百分比 |
每张GPU卡上的GPU虚拟化设备显存使用率 计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 |
GPU卡-XGPU设备显存分配量 |
字节 |
每张GPU卡上的GPU虚拟化设备的显存总量 |
GPU卡-XGPU设备显存分配率 |
百分比 |
每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例 计算公式:显卡上所有XGPU设备能使用的显存上限之和 / 显卡显存总量 |
GPU卡-XGPU设备算力使用率 |
百分比 |
每张GPU卡的GPU虚拟化设备的算力使用率 计算公式:显卡上所有XGPU设备当前所使用的算力之和 / 显卡算力总量 |
GPU卡-XGPU设备数量 |
个 |
每张GPU卡的GPU虚拟设备的数量 |
GPU卡-调度策略 |
数字 |
|
GPU卡-不健康的XGPU设备数量 |
个 |
每张GPU卡的不健康的GPU虚拟化设备的数量 |
容器显存分配量 |
字节 |
容器所能使用的显存上限 |
容器算力使用率 |
百分比 |
每个容器的算力使用率 计算公式:XGPU设备上容器算力使用量 / XGPU设备算力总量 |
容器显存使用量 |
字节 |
每个容器的显存使用量 |
容器显存使用率 |
百分比 |
每个容器的显存使用率 计算公式:XGPU设备上容器显存使用量 / XGPU设备显存总量 |
指标清单
指标名称 |
类型 |
说明 |
---|---|---|
xgpu_memory_total |
Gauge |
XGPU显存总量 |
xgpu_memory_used |
Gauge |
XGPU显存使用量 |
xgpu_core_percentage_total |
Gauge |
XGPU算力总量 |
xgpu_core_percentage_used |
Gauge |
XGPU算力使用率 |
gpu_schedule_policy |
Gauge |
GPU模式分成0、1、2三种,具体说明如下:
|
xgpu_device_health |
Gauge |
XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 |