更新时间:2024-08-15 GMT+08:00

GPU设备显示异常

问题描述

执行nvidia-smi查看GPU使用情况,显示如下:

  • 单卡机器显示
    No devices were found
  • 多卡机器上显示卡数目不全

    执行lspci | grep -i nvidia,显示卡数目正常。

处理方法

  1. 查看实例是否使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格)。
  2. 查看系统日志“/var/log/message”,是否存在驱动相关报错。
    • 如果出现“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。
      图1 系统日志
      1. 执行以下命令,开启驱动持久化模式。

        nvidia-smi -pm 1

      2. 执行以下命令,打开并编辑“/etc/rc.local”文件。

        vim /etc/rc.local

      3. 配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。
      4. 按“Esc”,输入:wq保存并退出。
      5. 执行以下命令,添加启动权限。

        chmod +x /etc/rc.d/rc.local

    • 否,请执行下一步。
  3. 查看实例的Tesla驱动版本是否为510.xx.xx。
    • 是,该驱动版本与镜像可能存在兼容性问题,建议更换驱动版本,操作指导,请参考安装GPU驱动
    • 否,请执行下一步。
  4. 请尝试重启云服务器,再执行nvidia-smi查看GPU使用情况,确认是否正常。

    如果问题依然存在,请联系客服。