更新时间:2025-07-18 GMT+08:00

GPU监控指标说明

CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了dcgm-exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。

计费说明

GPU指标作为自定义指标,如果将该指标上报至AOM,将进行按需收费。为避免产生额外的费用,建议在启用此功能前仔细阅读价格详情,了解按需计费详细情况。

CCE提供的GPU监控指标

表1 GPU基础监控指标

类型

指标

指标类型

单位

监控级别

说明

利用率指标

cce_gpu_utilization

Gauge

%

GPU卡

GPU卡算力使用率

cce_gpu_memory_utilization

Gauge

%

GPU卡

GPU卡显存使用率

cce_gpu_encoder_utilization

Gauge

%

GPU卡

GPU卡编码使用率

cce_gpu_decoder_utilization

Gauge

%

GPU卡

GPU卡解码使用率

cce_gpu_utilization_process

Gauge

%

GPU进程

GPU各进程算力使用率

cce_gpu_memory_utilization_process

Gauge

%

GPU进程

GPU各进程显存使用率

cce_gpu_encoder_utilization_process

Gauge

%

GPU进程

GPU各进程编码使用率

cce_gpu_decoder_utilization_process

Gauge

%

GPU进程

GPU各进程解码使用率

内存指标

cce_gpu_memory_used

Gauge

Byte

GPU卡

GPU显存使用量

说明:
如果您使用的NVIDIA驱动版本在510及以上,cce_gpu_memory_used指标在GPU整卡模式下存在一定误差,具体如下:
  • 2.7.60、2.1.44以下版本的CCE AI套件(NVIDIA GPU)插件:与实际值相比,cce_gpu_memory_used指标可能偏大250MB左右,该偏大值表示系统为驱动或固件预留的内存。
  • 2.7.60、2.1.44及以上版本的CCE AI套件(NVIDIA GPU)插件:与实际值相比,cce_gpu_memory_used指标可能偏大100KB左右。

cce_gpu_memory_total

Gauge

Byte

GPU卡

GPU显存总量

cce_gpu_memory_free

Gauge

Byte

GPU卡

GPU显存空闲量

cce_gpu_bar1_memory_used

Gauge

Byte

GPU卡

GPU bar1 内存使用量

cce_gpu_bar1_memory_total

Gauge

Byte

GPU卡

GPU bar1 内存总量

频率

cce_gpu_clock

Gauge

MHz

GPU卡

GPU时钟频率

cce_gpu_memory_clock

Gauge

MHz

GPU卡

GPU显存频率

cce_gpu_graphics_clock

Gauge

MHz

GPU卡

GPU图形处理器频率

cce_gpu_video_clock

Gauge

MHz

GPU卡

GPU视频处理器频率

物理状态数据

cce_gpu_temperature

Gauge

GPU卡

GPU温度

cce_gpu_power_usage

Gauge

Milliwatt(毫瓦)

GPU卡

GPU功率

cce_gpu_total_energy_consumption

Gauge

Millijoule(毫焦)

GPU卡

GPU总能耗

带宽数据

cce_gpu_pcie_link_bandwidth

Gauge

bit

GPU卡

GPU PCIE 带宽

cce_gpu_nvlink_bandwidth

Gauge

Gbit/s

GPU卡

GPU nvlink 带宽

cce_gpu_pcie_throughput_rx

Gauge

KB/s

GPU卡

GPU PCIE 接收带宽

cce_gpu_pcie_throughput_tx

Gauge

KB/s

GPU卡

GPU PCIE 发送带宽

cce_gpu_nvlink_utilization_counter_rx

Gauge

KB/s

GPU卡

GPU nvlink 接收带宽

cce_gpu_nvlink_utilization_counter_tx

Gauge

KB/s

GPU卡

GPU nvlink 发送带宽

隔离内存页面

cce_gpu_retired_pages_sbe

Gauge

-

GPU卡

GPU单比特错误隔离页数量

cce_gpu_retired_pages_dbe

Gauge

-

GPU卡

GPU双比特错误隔离页数量

表2 GPU虚拟化监控指标

指标

指标类型

单位

监控级别

说明

xgpu_memory_total

Gauge

Byte

GPU进程

GPU虚拟化显存总量。

xgpu_memory_used

Gauge

Byte

GPU进程

GPU虚拟化显存使用量。

xgpu_core_percentage_total

Gauge

%

GPU进程

GPU虚拟化算力总量。

xgpu_core_percentage_used

Gauge

%

GPU进程

GPU虚拟化算力使用量。

gpu_schedule_policy

Gauge

-

GPU卡

GPU虚拟化分三种模式:

  • 0:显存隔离算力共享模式
  • 1:显存算力隔离模式
  • 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。

xgpu_device_health

Gauge

-

GPU卡

GPU虚拟化设备的健康情况。

  • 0:表示GPU虚拟化设备为健康状态。
  • 1:表示GPU虚拟化设备为非健康状态。
  • 表3需要您的CCE AI套件(NVIDIA GPU)插件版本在2.1.30、2.7.46及以上。如果您需要使用这些指标,请及时升级插件。
  • 云原生监控插件暂不支持自动采集GPU Pod监控指标。若您需要在监控中心查看相关数据,请参见文档“最佳实践 > 监控 > GPU Pod监控指标采集及Grafana仪表盘搭建”,了解如何配置云原生插件采集相关指标。
  • 如果您使用的NVIDIA驱动版本在510及以上,gpu_pod_memory_used指标在GPU整卡模式下存在一定误差,具体如下:
    • 2.7.60、2.1.44以下版本的CCE AI套件(NVIDIA GPU)插件:与实际值相比,gpu_pod_memory_used指标可能偏大250MB左右,该偏大值表示系统为驱动或固件预留的内存。
    • 2.7.60、2.1.44及以上版本的CCE AI套件(NVIDIA GPU)插件:与实际值相比,gpu_pod_memory_used指标可能偏大100KB左右。
表3 GPU Pod监控指标

指标

指标类型

单位

监控进程

说明

gpu_pod_core_percentage_total

Gauge

%

GPU进程

表示GPU算力的分配量,即GPU卡分配给GPU负载的算力。算力以整卡的1%为单位,例如30%表示GPU卡将整卡中30%的算力分配给GPU虚拟化负载。

  • 不开启GPU虚拟化:整卡独占,该指标为100%。
  • 开启GPU虚拟化:该指标数值与xgpu_core_percentage_total相同。

gpu_pod_core_percentage_used

Gauge

%

GPU进程

表示GPU算力的使用量,即GPU负载实际使用的GPU卡算力。算力以整卡的1%为单位,例如30%表示GPU负载实际使用GPU卡中30%的算力。

  • 不开启GPU虚拟化:该指标数值与cce_gpu_utilization相同。
  • 开启GPU虚拟化:该指标数值与xgpu_core_percentage_used相同。

gpu_pod_memory_total

Gauge

Byte

GPU进程

表示GPU显存分配量,即GPU卡分配给GPU负载的显存量,以Byte为单位。

  • 不开启GPU虚拟化:该指标数值与cce_gpu_memory_total相同。
  • 开启GPU虚拟化:该指标数值与“xgpu_memory_total指标*1024*1024”相同。

gpu_pod_memory_used

Gauge

Byte

GPU进程

表示GPU显存使用量,即GPU负载当前实际使用的GPU卡显存量,以Byte为单位。

  • 不开启GPU虚拟化:该指标数值与cce_gpu_memory_used相同。
  • 开启GPU虚拟化:该指标数值与“xgpu_memory_used指标*1024*1024”相同。

DCGM提供的GPU监控指标

表4 利用率(Utilization)

指标名称

指标类型

单位

说明

DCGM_FI_DEV_GPU_UTIL

Gauge

%

表示GPU利用率,即在一个周期时间内(1s或1/6s,根据GPU产品而定),一个或多个核函数处于Active的时间。

该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况。

DCGM_FI_DEV_MEM_COPY_UTIL

Gauge

%

表示内存带宽利用率。

以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。

DCGM_FI_DEV_ENC_UTIL

Gauge

%

表示编码器利用率。

DCGM_FI_DEV_DEC_UTIL

Gauge

%

表示解码器利用率。

表5 内存(Memory)

指标名称

指标类型

单位

说明

DCGM_FI_DEV_FB_FREE

Gauge

MB

表示显存剩余数。

DCGM_FI_DEV_FB_USED

Gauge

MB

表示显存已使用数。

该值与nvidia-smi命令中Memory-Usage的已使用值对应。

表6 剖析(Profiling)

指标名称

指标类型

单位

说明

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Gauge

%

表示在一个时间间隔内,Graphics或Compute引擎处于Active的时间占比。

该值表示所有Graphics和Compute引擎的平均值。

Graphics或Compute引擎处于Active是指Graphics或Compute Context绑定到线程,并且Graphics或Compute Context处于Busy状态。

DCGM_FI_PROF_SM_ACTIVE

Gauge

%

表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active的时间占比。

该值表示所有SM的平均值,且该值对每个块的线程数不敏感。

线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是在Computing、也可能是非Computing状态(例如等待内存请求)。

该值小于0.5表示未高效利用GPU,大于0.8是必要的。

假设一个GPU有N个SM:

  • 一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上,此时该值为1(100%)。
  • 一个核函数在一个时间间隔内运行N/5个线程块,此时该值为0.2。
  • 一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

%

表示在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。

该值表示一个时间间隔内的所有SM的平均值。

占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载(DCGM_FI_PROF_DRAM_ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Gauge

%

表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值表示Tensor Cores的利用率较高。

该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令(两个周期完成一条指令)。

假设该值为0.2(20%),可能有如下情况:

  • 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。
  • 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。
  • 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。
  • 其他组合模式。

DCGM_FI_PROF_PIPE_FP64_ACTIVE

Gauge

%

表示FP64(双精度)Pipe处于Active状态的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值代表FP64 Cores有较高的利用率。

该值为 1(100%)表示在整个时间间隔内上每四个周期(以Volta类型卡为例)执行一次FP64指令。

假设该值为0.2(20%),可能有如下情况:

  • 在整个时间间隔内,有20%的SM的FP64 Core以100%的利用率运行。
  • 在整个时间间隔内,有100%的SM的FP64 Core以20%的利用率运行。
  • 在整个时间间隔的1/5时间内,有100%的SM上的FP64 Core以100%利用率运行。
  • 其他组合模式。

DCGM_FI_PROF_PIPE_FP32_ACTIVE

Gauge

%

表示乘加操作FMA(Fused Multiply-Add)管道处于Active的周期分数,乘加操作包括FP32(单精度)和整数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值代表FP32 Cores有较高的利用率。

该值为1(100%)表示在整个时间间隔内上每两个周期(Volta类型卡为例)执行一次FP32指令。

假设该值为0.2(20%),可能有如下情况:

  • 在整个时间间隔内,有20%的SM的FP32 Core以100%的利用率运行。
  • 在整个时间间隔内,有100%的SM的FP32 Core以20%的利用率运行。
  • 在整个时间间隔的1/5时间内,有100%的SM上的FP32 Core以100%利用率运行。
  • 其他组合模式。

DCGM_FI_PROF_PIPE_FP16_ACTIVE

Gauge

%

表示FP16(半精度)管道处于Active的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值代表FP16 Cores有较高的利用率。

该值为 1 (100%) 表示在整个时间间隔内上每两个周期(Volta类型卡为例)执行一次FP16指令。

假设该值为0.2(20%),可能有如下情况:

  • 在整个时间间隔内,有20%的SM的FP16 Core以100%的利用率运行。
  • 在整个时间间隔内,有100%的SM的FP16 Core以20%的利用率运行。
  • 在整个时间间隔的1/5时间内,有100%的SM上的FP16 Core以100%利用率运行。
  • 其他组合模式。

DCGM_FI_PROF_DRAM_ACTIVE

Gauge

%

表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。

该值表示时间间隔内的平均值,而不是瞬时值。

较高的值表示设备内存的利用率较高。

该值为1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。

假设该值为0.2(20%),表示20%的周期在时间间隔内读取或写入设备内存。

DCGM_FI_PROF_PCIE_TX_BYTES

DCGM_FI_PROF_PCIE_RX_BYTES

Counter

B/s

表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。

DCGM_FI_PROF_NVLINK_RX_BYTES

DCGM_FI_PROF_NVLINK_TX_BYTES

Counter

B/s

表示通过NVLink传输/接收的数据速率,不包括协议标头。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上,最大NVLink Gen2带宽为每个方向每个链路25 GB/s。

表7 频率(Clock)

指标名称

指标类型

单位

说明

DCGM_FI_DEV_SM_CLOCK

Gauge

MHz

表示SM时钟频率。

DCGM_FI_DEV_MEM_CLOCK

Gauge

MHz

表示内存时钟频率。

DCGM_FI_DEV_APP_SM_CLOCK

Gauge

MHz

表示SM应用时钟频率。

DCGM_FI_DEV_APP_MEM_CLOCK

Gauge

MHz

表示内存应用时钟频率。

DCGM_FI_DEV_CLOCK_THROTTLE_REASONS

Gauge

MHz

表示时钟慢下来的原因。

表8 XID错误&违规行为(XidError & Violations)

指标名称

指标类型

单位

说明

DCGM_FI_DEV_XID_ERRORS

Gauge

-

表示一段时间内,最后发生的XID错误号。

DCGM_FI_DEV_POWER_VIOLATION

Counter

μs(微秒)

表示因功率上限而导致的违规,该值为违规的时间。

DCGM_FI_DEV_THERMAL_VIOLATION

Counter

μs(微秒)

表示由于热限制导致的违规,该值为违规的时间。

DCGM_FI_DEV_SYNC_BOOST_VIOLATION

Counter

μs(微秒)

表示由于同步提升限制而导致的违规,该值为违规的时间。

DCGM_FI_DEV_BOARD_LIMIT_VIOLATION

Counter

μs(微秒)

表示由于电路板限制而导致的违规,该值为违规的时间。

DCGM_FI_DEV_LOW_UTIL_VIOLATION

Counter

μs(微秒)

表示低利用率限制导致的违规,该值为违规的时间。

DCGM_FI_DEV_RELIABILITY_VIOLATION

Counter

μs(微秒)

表示电路板可靠性限制导致违规,该值为违规的时间。

表9 BAR1

指标名称

指标类型

单位

说明

DCGM_FI_DEV_BAR1_USED

Gauge

MB

表示已使用的BAR1。

DCGM_FI_DEV_BAR1_FREE

Gauge

MB

表示剩余的BAR1。

表10 温度&功率(Temperature & Power)

指标名称

指标类型

单位

说明

DCGM_FI_DEV_MEMORY_TEMP

Gauge

表示内存温度。

DCGM_FI_DEV_GPU_TEMP

Gauge

表示GPU温度。

DCGM_FI_DEV_POWER_USAGE

Gauge

Watt(瓦特)

表示功率。

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

Counter

Millijoule(毫焦)

表示从驱动加载开始,已消耗的能量。

表11 停用的内存页面(Retired Pages)

指标名称

指标类型

单位

说明

DCGM_FI_DEV_RETIRED_SBE

Gauge

-

表示由单bit错误而停用的页面。

DCGM_FI_DEV_RETIRED_DBE

Gauge

-

表示用双bit错误而停用的页面。

关于DCGM更多指标详情请参见Field Identifiers