更新时间:2024-11-22 GMT+08:00

支持GPU监控的环境约束

  1. 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些?
  2. 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。
  3. 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。

    安装lspci工具的方法如下

    1. 登录弹性云服务器。
    2. 更新镜像源,获取安装依赖。

      wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh

      更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)?

    3. 执行以下命令,安装lspci工具。
      • CentOS系统:

        yum install pciutils

      • Ubuntu系统:

        apt install pciutils

    4. 执行以下命令,查看安装结果。

      lspci -d 10de:

      图1 安装结果
  4. GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。
    1. Linux驱动文件
      nvmlUbuntuNvidiaLibraryPath = "/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1"
      nvmlCentosNvidiaLibraryPath = "/usr/lib64/libnvidia-ml.so.1"
      nvmlCceNvidiaLibraryPath    = "/opt/cloud/cce/nvidia/lib64/libnvidia-ml.so.1"
    2. Windows驱动文件
      DefaultNvmlDLLPath = "C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvml.dll"
      WHQLNvmlDLLPath    = "C:\\Windows\\System32\\nvml.dll"