更新时间:2025-06-30 GMT+08:00

支持GPU监控的环境约束

  1. 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些?
  2. 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。
  3. 已安装增强版Agent插件,安装方式请参见安装Agent。Agent基础版与增强版的区别如表1所示。
    表1 CES Agent基础版和增强版区别说明

    版本

    版本说明

    基础版

    提供基础操作系统监控指标,例如CPU、内存、磁盘、网卡等指标,并为您带来性能及体验提升。

    版本号一般为三位,例如2.7.5。

    增强版

    除提供基础版能力外,还将提供:GPU监控能力、NPU监控能力、BMS硬件故障监控能力。

    版本号一般为四位,例如2.7.5.1。

    注意:

    增强版由于采集指标更多,可能会占用更多的主机资源,请合理选择插件版本。

  4. GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。
    1. Linux驱动文件
      nvmlUbuntuNvidiaLibraryPath = "/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1"
      nvmlCentosNvidiaLibraryPath = "/usr/lib64/libnvidia-ml.so.1"
      nvmlCceNvidiaLibraryPath    = "/opt/cloud/cce/nvidia/lib64/libnvidia-ml.so.1"
    2. Windows驱动文件
      DefaultNvmlDLLPath = "C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvml.dll"
      WHQLNvmlDLLPath    = "C:\\Windows\\System32\\nvml.dll"