XGPU视图
XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。
图表说明

图表名称 | 单位 | 说明 |
|---|---|---|
集群-XGPU设备显存使用率 | 百分比 | 集群的GPU虚拟化设备显存使用率 计算公式:集群中所有XGPU设备的显存使用量之和 / 集群显存总量 |
集群-XGPU设备算力使用率 | 百分比 | 集群的GPU虚拟化设备算力使用率 计算公式:集群中所有XGPU设备的算力使用量之和 / 集群算力总量 |
节点-XGPU设备显存使用率 | 百分比 | 每个节点的GPU虚拟化设备显存使用率 计算公式:节点上所有XGPU设备的显存使用量之和 / 节点显存总量 |
节点-XGPU设备算力使用率 | 百分比 | 每个节点的GPU虚拟化设备算力使用率 计算公式:节点上所有XGPU设备的算力使用量之和 / 节点算力总量 |
节点-XGPU设备数量 | 个 | 每个节点的GPU虚拟化设备数量 |
节点-XGPU设备显存分配量 | 字节 | 每个节点上的GPU虚拟化设备显存总量 |
GPU卡-XGPU设备显存使用率 | 百分比 | 每张GPU卡上的GPU虚拟化设备显存使用率 计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 |
GPU卡-XGPU设备显存分配量 | 字节 | 每张GPU卡上的GPU虚拟化设备的显存总量 |
GPU卡-XGPU设备显存分配率 | 百分比 | 每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例 计算公式:显卡上所有XGPU设备能使用的显存上限之和 / 显卡显存总量 |
GPU卡-XGPU设备算力使用率 | 百分比 | 每张GPU卡的GPU虚拟化设备的算力使用率 计算公式:显卡上所有XGPU设备当前所使用的算力之和 / 显卡算力总量 |
GPU卡-XGPU设备数量 | 个 | 每张GPU卡的GPU虚拟设备的数量 |
GPU卡-调度策略 | 数字 |
|
GPU卡-不健康的XGPU设备数量 | 个 | 每张GPU卡的不健康的GPU虚拟化设备的数量 |
容器显存分配量 | 字节 | 容器所能使用的显存上限 |
容器算力使用率 | 百分比 | 每个容器的算力使用率 计算公式:XGPU设备上容器算力使用量 / XGPU设备算力总量 |
容器显存使用量 | 字节 | 每个容器的显存使用量 |
容器显存使用率 | 百分比 | 每个容器的显存使用率 计算公式:XGPU设备上容器显存使用量 / XGPU设备显存总量 |
指标清单
指标名称 | 类型 | 说明 |
|---|---|---|
xgpu_memory_total | Gauge | XGPU显存总量 |
xgpu_memory_used | Gauge | XGPU显存使用量 |
xgpu_core_percentage_total | Gauge | XGPU算力总量 |
xgpu_core_percentage_used | Gauge | XGPU算力使用率 |
gpu_schedule_policy | Gauge | GPU模式分成0、1、2三种,具体说明如下:
|
xgpu_device_health | Gauge | XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 |

