GPU视图
GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。
指标说明
图表名称 |
单位 |
说明 |
---|---|---|
集群-显存使用率 |
百分比 |
集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 |
集群-算力使用率 |
百分比 |
集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量 |
节点-显存使用量 |
字节 |
每个节点的显存使用量 |
节点-算力使用率 |
百分比 |
每个节点的算力使用率 计算公式:节点上容器算力使用总量/节点上算力总量 |
节点-显存使用率 |
百分比 |
每个节点的显存使用率 计算公式:节点上容器显存使用总量/节点上显存总量 |
GPU卡-显存使用量 |
字节 |
显卡上容器显存使用总量 |
GPU卡-算力使用率 |
百分比 |
每张GPU卡的算力使用率 计算公式:显卡上容器算力使用总量/显卡的算力总量 |
GPU卡-温度 |
摄氏度 |
每张GPU卡的温度 |
GPU-显存频率 |
赫兹 |
每张GPU卡的显存频率 |
GPU卡-PCle带宽 |
字节/秒 |
每张GPU卡的PCle带宽 |
指标清单
指标名称 |
类型 |
说明 |
---|---|---|
cce_gpu_gpu_utilization |
Gauge |
GPU卡算力使用率 |
cce_gpu_memory_utilization |
Gauge |
GPU卡显存使用率 |
cce_gpu_memory_used |
Gauge |
GPU显存使用量 |
cce_gpu_memory_total |
Gauge |
GPU显存总量 |
cce_gpu_memory_free |
Gauge |
GPU显存空闲量 |
cce_gpu_memory_clock |
Gauge |
GPU显存频率 |
cce_gpu_gpu_temperature |
Gauge |
GPU温度 |
cce_gpu_pcie_link_bandwidth |
Gauge |
GPU pcie带宽 |
cce_gpu_pcie_throughput_rx |
Gauge |
GPU pcie接收带宽 |