GPU视图
GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。
图表说明

图表名称 | 单位 | 说明 |
|---|---|---|
集群-显存使用率 | 百分比 | 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 |
集群-算力使用率 | 百分比 | 集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量 |
节点-显存使用量 | 字节 | 每个节点的显存使用量 |
节点-算力使用率 | 百分比 | 每个节点的算力使用率 计算公式:节点上容器算力使用总量/节点上算力总量 |
节点-显存使用率 | 百分比 | 每个节点的显存使用率 计算公式:节点上容器显存使用总量/节点上显存总量 |
GPU卡-显存使用量 | 字节 | 显卡上容器显存使用总量 |
GPU卡-算力使用率 | 百分比 | 每张GPU卡的算力使用率 计算公式:显卡上容器算力使用总量/显卡的算力总量 |
GPU卡-温度 | 摄氏度 | 每张GPU卡的温度 |
GPU卡-显存频率 | 赫兹 | 每张GPU卡的显存频率 |
GPU卡-PCIe带宽 | 字节/秒 | 每张GPU卡的PCIe带宽 |
指标清单
指标名称 | 类型 | 说明 |
|---|---|---|
cce_gpu_gpu_utilization | Gauge | GPU卡算力使用率 |
cce_gpu_memory_utilization | Gauge | GPU卡显存使用率 |
cce_gpu_memory_used | Gauge | GPU显存使用量 |
cce_gpu_memory_total | Gauge | GPU显存总量 |
cce_gpu_memory_free | Gauge | GPU显存空闲量 |
cce_gpu_memory_clock | Gauge | GPU显存频率 |
cce_gpu_gpu_temperature | Gauge | GPU温度 |
cce_gpu_pcie_link_bandwidth | Gauge | GPU pcie带宽 |
cce_gpu_pcie_throughput_rx | Gauge | GPU pcie接收带宽 |

