GPU监控指标说明
CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。
CCE提供的GPU监控指标
类型 |
指标 |
指标类型 |
单位 |
监控级别 |
说明 |
---|---|---|---|---|---|
利用率指标 |
cce_gpu_utilization |
Gauge |
% |
GPU卡 |
GPU卡算力使用率 |
cce_gpu_memory_utilization |
Gauge |
% |
GPU卡 |
GPU卡显存使用率 |
|
cce_gpu_encoder_utilization |
Gauge |
% |
GPU卡 |
GPU卡编码使用率 |
|
cce_gpu_decoder_utilization |
Gauge |
% |
GPU卡 |
GPU卡解码使用率 |
|
cce_gpu_utilization_process |
Gauge |
% |
GPU进程 |
GPU各进程算力使用率 |
|
cce_gpu_memory_utilization_process |
Gauge |
% |
GPU进程 |
GPU各进程显存使用率 |
|
cce_gpu_encoder_utilization_process |
Gauge |
% |
GPU进程 |
GPU各进程编码使用率 |
|
cce_gpu_decoder_utilization_process |
Gauge |
% |
GPU进程 |
GPU各进程解码使用率 |
|
内存指标 |
cce_gpu_memory_used |
Gauge |
Byte |
GPU卡 |
GPU显存使用量 |
cce_gpu_memory_total |
Gauge |
Byte |
GPU卡 |
GPU显存总量 |
|
cce_gpu_memory_free |
Gauge |
Byte |
GPU卡 |
GPU显存空闲量 |
|
cce_gpu_bar1_memory_used |
Gauge |
Byte |
GPU卡 |
GPU bar1 内存使用量 |
|
cce_gpu_bar1_memory_total |
Gauge |
Byte |
GPU卡 |
GPU bar1 内存总量 |
|
频率 |
cce_gpu_clock |
Gauge |
MHz |
GPU卡 |
GPU时钟频率 |
cce_gpu_memory_clock |
Gauge |
MHz |
GPU卡 |
GPU显存频率 |
|
cce_gpu_graphics_clock |
Gauge |
MHz |
GPU卡 |
GPU图形处理器频率 |
|
cce_gpu_video_clock |
Gauge |
MHz |
GPU卡 |
GPU视频处理器频率 |
|
物理状态数据 |
cce_gpu_temperature |
Gauge |
℃ |
GPU卡 |
GPU温度 |
cce_gpu_power_usage |
Gauge |
Milliwatt(毫瓦) |
GPU卡 |
GPU功率 |
|
cce_gpu_total_energy_consumption |
Gauge |
Millijoule(毫焦) |
GPU卡 |
GPU总能耗 |
|
带宽数据 |
cce_gpu_pcie_link_bandwidth |
Gauge |
bit |
GPU卡 |
GPU PCIE 带宽 |
cce_gpu_nvlink_bandwidth |
Gauge |
Gbit/s |
GPU卡 |
GPU nvlink 带宽 |
|
cce_gpu_pcie_throughput_rx |
Gauge |
KB/s |
GPU卡 |
GPU PCIE 接收带宽 |
|
cce_gpu_pcie_throughput_tx |
Gauge |
KB/s |
GPU卡 |
GPU PCIE 发送带宽 |
|
cce_gpu_nvlink_utilization_counter_rx |
Gauge |
KB/s |
GPU卡 |
GPU nvlink 接收带宽 |
|
cce_gpu_nvlink_utilization_counter_tx |
Gauge |
KB/s |
GPU卡 |
GPU nvlink 发送带宽 |
|
隔离内存页面 |
cce_gpu_retired_pages_sbe |
Gauge |
- |
GPU卡 |
GPU单比特错误隔离页数量 |
cce_gpu_retired_pages_dbe |
Gauge |
- |
GPU卡 |
GPU双比特错误隔离页数量 |