GPU监控指标说明

CCE AI套件（NVIDIA GPU）插件提供GPU监控指标，并集成了dcgm-exporter组件（要求插件版本2.7.32+），引入更丰富的GPU可观测性场景。本文介绍CCE AI套件（NVIDIA GPU）插件指标的详细信息。

计费说明

如果您安装了“云原生监控插件”来采集“CCE AI套件（NVIDIA GPU）插件”产生的GPU监控指标，且“云原生监控插件”开启将数据上报至AOM实例，则可能会产生AOM指标上报和存储的费用。具体如下：

CCE提供的GPU监控指标：属于基础指标，AOM对基础指标免费使用。
DCGM提供的GPU监控指标：属于自定义指标，AOM将进行按需收费。为避免产生额外的费用，建议在启用此功能前仔细阅读价格详情，了解按需计费详细情况。

CCE提供的GPU监控指标

表1 GPU基础监控指标
类型	指标	指标类型	单位	监控级别	说明
利用率指标	cce_gpu_utilization	Gauge	%	GPU卡	GPU卡算力使用率
	cce_gpu_memory_utilization	Gauge	%	GPU卡	GPU卡显存使用率
	cce_gpu_encoder_utilization	Gauge	%	GPU卡	GPU卡编码使用率
	cce_gpu_decoder_utilization	Gauge	%	GPU卡	GPU卡解码使用率
	cce_gpu_utilization_process	Gauge	%	GPU进程	GPU各进程算力使用率
	cce_gpu_memory_utilization_process	Gauge	%	GPU进程	GPU各进程显存使用率
	cce_gpu_encoder_utilization_process	Gauge	%	GPU进程	GPU各进程编码使用率
	cce_gpu_decoder_utilization_process	Gauge	%	GPU进程	GPU各进程解码使用率
内存指标	cce_gpu_memory_used	Gauge	Byte	GPU卡	GPU显存使用量说明：如果您使用的NVIDIA驱动版本在510及以上，cce_gpu_memory_used指标在GPU整卡模式下存在一定误差，具体如下： 2.7.60、2.1.44以下版本的CCE AI套件（NVIDIA GPU）插件：与实际值相比，cce_gpu_memory_used指标可能偏大250MB左右，该偏大值表示系统为驱动或固件预留的内存。 2.7.60、2.1.44及以上版本的CCE AI套件（NVIDIA GPU）插件：与实际值相比，cce_gpu_memory_used指标可能偏大100KB左右。
	cce_gpu_memory_total	Gauge	Byte	GPU卡	GPU显存总量
	cce_gpu_memory_free	Gauge	Byte	GPU卡	GPU显存空闲量
	cce_gpu_bar1_memory_used	Gauge	Byte	GPU卡	GPU bar1 内存使用量
	cce_gpu_bar1_memory_total	Gauge	Byte	GPU卡	GPU bar1 内存总量
频率	cce_gpu_clock	Gauge	MHz	GPU卡	GPU时钟频率
	cce_gpu_memory_clock	Gauge	MHz	GPU卡	GPU显存频率
	cce_gpu_graphics_clock	Gauge	MHz	GPU卡	GPU图形处理器频率
	cce_gpu_video_clock	Gauge	MHz	GPU卡	GPU视频处理器频率
物理状态数据	cce_gpu_temperature	Gauge	℃	GPU卡	GPU温度
	cce_gpu_power_usage	Gauge	Milliwatt（毫瓦）	GPU卡	GPU功率
	cce_gpu_total_energy_consumption	Gauge	Millijoule（毫焦）	GPU卡	GPU总能耗
带宽数据	cce_gpu_pcie_link_bandwidth	Gauge	bit	GPU卡	GPU PCIE 带宽
	cce_gpu_nvlink_bandwidth	Gauge	Gbit/s	GPU卡	GPU nvlink 带宽
	cce_gpu_pcie_throughput_rx	Gauge	KB/s	GPU卡	GPU PCIE 接收带宽
	cce_gpu_pcie_throughput_tx	Gauge	KB/s	GPU卡	GPU PCIE 发送带宽
	cce_gpu_nvlink_utilization_counter_rx	Gauge	KB/s	GPU卡	GPU nvlink 接收带宽
	cce_gpu_nvlink_utilization_counter_tx	Gauge	KB/s	GPU卡	GPU nvlink 发送带宽
隔离内存页面	cce_gpu_retired_pages_sbe	Gauge	-	GPU卡	GPU单比特错误隔离页数量
隔离内存页面	cce_gpu_retired_pages_dbe	Gauge	-	GPU卡	GPU双比特错误隔离页数量

表2 GPU虚拟化监控指标
指标	指标类型	单位	监控级别	说明
xgpu_memory_total	Gauge	Byte	GPU进程	GPU虚拟化显存总量。
xgpu_memory_used	Gauge	Byte	GPU进程	GPU虚拟化显存使用量。
xgpu_core_percentage_total	Gauge	%	GPU进程	GPU虚拟化算力总量。
xgpu_core_percentage_used	Gauge	%	GPU进程	GPU虚拟化算力使用量。
gpu_schedule_policy	Gauge	-	GPU卡	GPU虚拟化分三种模式： 0：显存隔离算力共享模式 1：显存算力隔离模式 2：默认模式，表示当前卡还没被用于GPU虚拟化设备分配。
xgpu_device_health	Gauge	-	GPU卡	GPU虚拟化设备的健康情况。 0：表示GPU虚拟化设备为健康状态。 1：表示GPU虚拟化设备为非健康状态。

表3需要您的CCE AI套件（NVIDIA GPU）插件版本在2.1.30、2.7.46及以上。如果您需要使用这些指标，请及时升级插件。
云原生监控插件暂不支持自动采集GPU Pod监控指标。若您需要在监控中心查看相关数据，请参见文档“最佳实践 > 监控 > GPU Pod监控指标采集及Grafana仪表盘搭建”，了解如何配置云原生插件采集相关指标。
如果您使用的NVIDIA驱动版本在510及以上，gpu_pod_memory_used指标在GPU整卡模式下存在一定误差，具体如下：
- 2.7.60、2.1.44以下版本的CCE AI套件（NVIDIA GPU）插件：与实际值相比，gpu_pod_memory_used指标可能偏大250MB左右，该偏大值表示系统为驱动或固件预留的内存。
- 2.7.60、2.1.44及以上版本的CCE AI套件（NVIDIA GPU）插件：与实际值相比，gpu_pod_memory_used指标可能偏大100KB左右。

表3 GPU Pod监控指标
指标	指标类型	单位	监控进程	说明
gpu_pod_core_percentage_total	Gauge	%	GPU进程	表示GPU算力的分配量，即GPU卡分配给GPU负载的算力。算力以整卡的1%为单位，例如30%表示GPU卡将整卡中30%的算力分配给GPU虚拟化负载。不开启GPU虚拟化：整卡独占，该指标为100%。开启GPU虚拟化：该指标数值与xgpu_core_percentage_total相同。
gpu_pod_core_percentage_used	Gauge	%	GPU进程	表示GPU算力的使用量，即GPU负载实际使用的GPU卡算力。算力以整卡的1%为单位，例如30%表示GPU负载实际使用GPU卡中30%的算力。不开启GPU虚拟化：该指标数值与cce_gpu_utilization相同。开启GPU虚拟化：该指标数值与xgpu_core_percentage_used相同。
gpu_pod_memory_total	Gauge	Byte	GPU进程	表示GPU显存分配量，即GPU卡分配给GPU负载的显存量，以Byte为单位。不开启GPU虚拟化：该指标数值与cce_gpu_memory_total相同。开启GPU虚拟化：该指标数值与“xgpu_memory_total指标10241024”相同。
gpu_pod_memory_used	Gauge	Byte	GPU进程	表示GPU显存使用量，即GPU负载当前实际使用的GPU卡显存量，以Byte为单位。不开启GPU虚拟化：该指标数值与cce_gpu_memory_used相同。开启GPU虚拟化：该指标数值与“xgpu_memory_used指标10241024”相同。

DCGM提供的GPU监控指标

表4 利用率（Utilization）
指标名称	指标类型	单位	说明
DCGM_FI_DEV_GPU_UTIL	Gauge	%	表示GPU利用率，即在一个周期时间内（1s或1/6s，根据GPU产品而定），一个或多个核函数处于Active的时间。该指标仅能够展示有核函数在用的GPU资源，但无法展示具体的使用情况。
DCGM_FI_DEV_MEM_COPY_UTIL	Gauge	%	表示内存带宽利用率。以英伟达GPU V100为例，其最大内存带宽为900 GB/sec，如果当前的内存带宽为450 GB/sec，则内存带宽利用率为50%。
DCGM_FI_DEV_ENC_UTIL	Gauge	%	表示编码器利用率。
DCGM_FI_DEV_DEC_UTIL	Gauge	%	表示解码器利用率。

表5 内存（Memory）
指标名称	指标类型	单位	说明
DCGM_FI_DEV_FB_FREE	Gauge	MB	表示显存剩余数。
DCGM_FI_DEV_FB_USED	Gauge	MB	表示显存已使用数。该值与nvidia-smi命令中Memory-Usage的已使用值对应。

表6 剖析（Profiling）
指标名称	指标类型	单位	说明
DCGM_FI_PROF_GR_ENGINE_ACTIVE	Gauge	%	表示在一个时间间隔内，Graphics或Compute引擎处于Active的时间占比。该值表示所有Graphics和Compute引擎的平均值。 Graphics或Compute引擎处于Active是指Graphics或Compute Context绑定到线程，并且Graphics或Compute Context处于Busy状态。
DCGM_FI_PROF_SM_ACTIVE	Gauge	%	表示在一个时间间隔内，至少一个线程束在一个SM（Streaming Multiprocessor）上处于Active的时间占比。该值表示所有SM的平均值，且该值对每个块的线程数不敏感。线程束处于Active是指一个线程束被调度且分配资源后的状态，可能是在Computing、也可能是非Computing状态（例如等待内存请求）。该值小于0.5表示未高效利用GPU，大于0.8是必要的。假设一个GPU有N个SM：一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上，此时该值为1（100%）。一个核函数在一个时间间隔内运行N/5个线程块，此时该值为0.2。一个核函数使用N个线程块，在一个时间间隔内，仅运行了1/5个周期的时间，此时该值为0.2。
DCGM_FI_PROF_SM_OCCUPANCY	Gauge	%	表示在一个时间间隔内，驻留在SM上的线程束与该SM最大可驻留线程束的比例。该值表示一个时间间隔内的所有SM的平均值。占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载（DCGM_FI_PROF_DRAM_ACTIVE）情况下，更高的占用率表示更有效的GPU使用率。
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE	Gauge	%	表示Tensor（HMMA/IMMA） Pipe处于Active状态的周期分数。该值表示一个时间间隔内的平均值，而不是瞬时值。较高的值表示Tensor Cores的利用率较高。该值为1（100%）表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令（两个周期完成一条指令）。假设该值为0.2（20%），可能有如下情况：在整个时间间隔内，有20%的SM的Tensor Core以100%的利用率运行。在整个时间间隔内，有100%的SM的Tensor Core以20%的利用率运行。在整个时间间隔的1/5时间内，有100%的SM上的Tensor Core以100%利用率运行。其他组合模式。
DCGM_FI_PROF_PIPE_FP64_ACTIVE	Gauge	%	表示FP64（双精度）Pipe处于Active状态的周期分数。该值表示一个时间间隔内的平均值，而不是瞬时值。较高的值代表FP64 Cores有较高的利用率。该值为 1（100%）表示在整个时间间隔内上每四个周期（以Volta类型卡为例）执行一次FP64指令。假设该值为0.2（20%），可能有如下情况：在整个时间间隔内，有20%的SM的FP64 Core以100%的利用率运行。在整个时间间隔内，有100%的SM的FP64 Core以20%的利用率运行。在整个时间间隔的1/5时间内，有100%的SM上的FP64 Core以100%利用率运行。其他组合模式。
DCGM_FI_PROF_PIPE_FP32_ACTIVE	Gauge	%	表示乘加操作FMA（Fused Multiply-Add）管道处于Active的周期分数，乘加操作包括FP32（单精度）和整数。该值表示一个时间间隔内的平均值，而不是瞬时值。较高的值代表FP32 Cores有较高的利用率。该值为1（100%）表示在整个时间间隔内上每两个周期（Volta类型卡为例）执行一次FP32指令。假设该值为0.2（20%），可能有如下情况：在整个时间间隔内，有20%的SM的FP32 Core以100%的利用率运行。在整个时间间隔内，有100%的SM的FP32 Core以20%的利用率运行。在整个时间间隔的1/5时间内，有100%的SM上的FP32 Core以100%利用率运行。其他组合模式。
DCGM_FI_PROF_PIPE_FP16_ACTIVE	Gauge	%	表示FP16（半精度）管道处于Active的周期分数。该值表示一个时间间隔内的平均值，而不是瞬时值。较高的值代表FP16 Cores有较高的利用率。该值为 1 (100%) 表示在整个时间间隔内上每两个周期（Volta类型卡为例）执行一次FP16指令。假设该值为0.2（20%），可能有如下情况：在整个时间间隔内，有20%的SM的FP16 Core以100%的利用率运行。在整个时间间隔内，有100%的SM的FP16 Core以20%的利用率运行。在整个时间间隔的1/5时间内，有100%的SM上的FP16 Core以100%利用率运行。其他组合模式。
DCGM_FI_PROF_DRAM_ACTIVE	Gauge	%	表示内存带宽利用率（Memory BW Utilization）将数据发送到设备内存或从设备内存接收数据的周期分数。该值表示时间间隔内的平均值，而不是瞬时值。较高的值表示设备内存的利用率较高。该值为1（100%）表示在整个时间间隔内的每个周期执行一条 DRAM 指令（实际上，峰值约为 0.8 (80%) 是可实现的最大值）。假设该值为0.2（20%），表示20%的周期在时间间隔内读取或写入设备内存。
DCGM_FI_PROF_PCIE_TX_BYTES DCGM_FI_PROF_PCIE_RX_BYTES	Counter	B/s	表示通过PCIe总线传输/接收的数据速率，包括协议标头和数据有效负载。该值表示一个时间间隔内的平均值，而不是瞬时值。该速率在时间间隔内平均。例如，在1秒内传输1 GB数据，则无论以恒定速率还是突发传输数据，速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。
DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES	Counter	B/s	表示通过NVLink传输/接收的数据速率，不包括协议标头。该值表示一个时间间隔内的平均值，而不是瞬时值。该速率在时间间隔内平均。例如，在1秒内传输1 GB数据，则无论以恒定速率还是突发传输数据，速率都是1 GB/s。理论上，最大NVLink Gen2带宽为每个方向每个链路25 GB/s。

表7 频率（Clock）
指标名称	指标类型	单位	说明
DCGM_FI_DEV_SM_CLOCK	Gauge	MHz	表示SM时钟频率。
DCGM_FI_DEV_MEM_CLOCK	Gauge	MHz	表示内存时钟频率。
DCGM_FI_DEV_APP_SM_CLOCK	Gauge	MHz	表示SM应用时钟频率。
DCGM_FI_DEV_APP_MEM_CLOCK	Gauge	MHz	表示内存应用时钟频率。
DCGM_FI_DEV_CLOCK_THROTTLE_REASONS	Gauge	MHz	表示时钟慢下来的原因。

表8 XID错误&违规行为（XidError & Violations）
指标名称	指标类型	单位	说明
DCGM_FI_DEV_XID_ERRORS	Gauge	-	表示一段时间内，最后发生的XID错误号。
DCGM_FI_DEV_POWER_VIOLATION	Counter	μs（微秒）	表示因功率上限而导致的违规，该值为违规的时间。
DCGM_FI_DEV_THERMAL_VIOLATION	Counter	μs（微秒）	表示由于热限制导致的违规，该值为违规的时间。
DCGM_FI_DEV_SYNC_BOOST_VIOLATION	Counter	μs（微秒）	表示由于同步提升限制而导致的违规，该值为违规的时间。
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION	Counter	μs（微秒）	表示由于电路板限制而导致的违规，该值为违规的时间。
DCGM_FI_DEV_LOW_UTIL_VIOLATION	Counter	μs（微秒）	表示低利用率限制导致的违规，该值为违规的时间。
DCGM_FI_DEV_RELIABILITY_VIOLATION	Counter	μs（微秒）	表示电路板可靠性限制导致违规，该值为违规的时间。

表9 BAR1
指标名称	指标类型	单位	说明
DCGM_FI_DEV_BAR1_USED	Gauge	MB	表示已使用的BAR1。
DCGM_FI_DEV_BAR1_FREE	Gauge	MB	表示剩余的BAR1。

**表10** 温度&功率（Temperature & Power）
指标名称	指标类型	单位	说明
DCGM_FI_DEV_MEMORY_TEMP	Gauge	℃	表示内存温度。
DCGM_FI_DEV_GPU_TEMP	Gauge	℃	表示GPU温度。
DCGM_FI_DEV_POWER_USAGE	Gauge	Watt（瓦特）	表示功率。
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION	Counter	Millijoule（毫焦）	表示从驱动加载开始，已消耗的能量。

**表11** 停用的内存页面（Retired Pages）
指标名称	指标类型	单位	说明
DCGM_FI_DEV_RETIRED_SBE	Gauge	-	表示由单bit错误而停用的页面。
DCGM_FI_DEV_RETIRED_DBE	Gauge	-	表示用双bit错误而停用的页面。

关于DCGM更多指标详情请参见Field Identifiers。

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问