更新时间:2025-05-16 GMT+08:00

GPU监控指标说明

CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。

CCE提供的GPU监控指标

表1 GPU基础监控指标

类型

指标

指标类型

单位

监控级别

说明

利用率指标

cce_gpu_utilization

Gauge

%

GPU卡

GPU卡算力使用率

cce_gpu_memory_utilization

Gauge

%

GPU卡

GPU卡显存使用率

cce_gpu_encoder_utilization

Gauge

%

GPU卡

GPU卡编码使用率

cce_gpu_decoder_utilization

Gauge

%

GPU卡

GPU卡解码使用率

cce_gpu_utilization_process

Gauge

%

GPU进程

GPU各进程算力使用率

cce_gpu_memory_utilization_process

Gauge

%

GPU进程

GPU各进程显存使用率

cce_gpu_encoder_utilization_process

Gauge

%

GPU进程

GPU各进程编码使用率

cce_gpu_decoder_utilization_process

Gauge

%

GPU进程

GPU各进程解码使用率

内存指标

cce_gpu_memory_used

Gauge

Byte

GPU卡

GPU显存使用量

cce_gpu_memory_total

Gauge

Byte

GPU卡

GPU显存总量

cce_gpu_memory_free

Gauge

Byte

GPU卡

GPU显存空闲量

cce_gpu_bar1_memory_used

Gauge

Byte

GPU卡

GPU bar1 内存使用量

cce_gpu_bar1_memory_total

Gauge

Byte

GPU卡

GPU bar1 内存总量

频率

cce_gpu_clock

Gauge

MHz

GPU卡

GPU时钟频率

cce_gpu_memory_clock

Gauge

MHz

GPU卡

GPU显存频率

cce_gpu_graphics_clock

Gauge

MHz

GPU卡

GPU图形处理器频率

cce_gpu_video_clock

Gauge

MHz

GPU卡

GPU视频处理器频率

物理状态数据

cce_gpu_temperature

Gauge

GPU卡

GPU温度

cce_gpu_power_usage

Gauge

Milliwatt(毫瓦)

GPU卡

GPU功率

cce_gpu_total_energy_consumption

Gauge

Millijoule(毫焦)

GPU卡

GPU总能耗

带宽数据

cce_gpu_pcie_link_bandwidth

Gauge

bit

GPU卡

GPU PCIE 带宽

cce_gpu_nvlink_bandwidth

Gauge

Gbit/s

GPU卡

GPU nvlink 带宽

cce_gpu_pcie_throughput_rx

Gauge

KB/s

GPU卡

GPU PCIE 接收带宽

cce_gpu_pcie_throughput_tx

Gauge

KB/s

GPU卡

GPU PCIE 发送带宽

cce_gpu_nvlink_utilization_counter_rx

Gauge

KB/s

GPU卡

GPU nvlink 接收带宽

cce_gpu_nvlink_utilization_counter_tx

Gauge

KB/s

GPU卡

GPU nvlink 发送带宽

隔离内存页面

cce_gpu_retired_pages_sbe

Gauge

-

GPU卡

GPU单比特错误隔离页数量

cce_gpu_retired_pages_dbe

Gauge

-

GPU卡

GPU双比特错误隔离页数量