更新时间:2024-08-09 GMT+08:00
分享

GPU视图

GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。

指标说明

图1 GPU资源指标
表1 GPU图表说明

图表名称

单位

说明

集群-显存使用率

百分比

集群的显存使用率

计算公式:集群内容器显存使用总量/集群内显存总量

集群-算力使用率

百分比

集群的算力使用率

计算公式:集群内容器算力使用总量/集群内算力总量

节点-显存使用量

字节

每个节点的显存使用量

节点-算力使用率

百分比

每个节点的算力使用率

计算公式:节点上容器算力使用总量/节点上算力总量

节点-显存使用率

百分比

每个节点的显存使用率

计算公式:节点上容器显存使用总量/节点上显存总量

GPU卡-显存使用量

字节

显卡上容器显存使用总量

GPU卡-算力使用率

百分比

每张GPU卡的算力使用率

计算公式:显卡上容器算力使用总量/显卡的算力总量

GPU卡-温度

摄氏度

每张GPU卡的温度

GPU-显存频率

赫兹

每张GPU卡的显存频率

GPU卡-PCle带宽

字节/秒

每张GPU卡的PCle带宽

指标清单

GPU视图使用的指标清单如下:
表2 GPU指标说明

指标名称

类型

说明

cce_gpu_gpu_utilization

Gauge

GPU卡算力使用率

cce_gpu_memory_utilization

Gauge

GPU卡显存使用率

cce_gpu_memory_used

Gauge

GPU显存使用量

cce_gpu_memory_total

Gauge

GPU显存总量

cce_gpu_memory_free

Gauge

GPU显存空闲量

cce_gpu_memory_clock

Gauge

GPU显存频率

cce_gpu_gpu_temperature

Gauge

GPU温度

cce_gpu_pcie_link_bandwidth

Gauge

GPU pcie带宽

cce_gpu_pcie_throughput_rx

Gauge

GPU pcie接收带宽

相关文档