更新时间:2024-08-15 GMT+08:00

如何处理驱动兼容性问题

问题描述

用户执行nvidia-smi命令回显报错“No devices were found”。

No devices were found

处理方法

  1. 查看云服务器的实例规格,确认用户使用的镜像信息。
    • 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。
    • 如果使用其他规格的GPU云服务器,执行下一步。
  2. 查看系统日志“/var/log/message”,是否存在驱动相关报错。
    • 如果存在报错“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。

      1. 执行以下命令,开启驱动持久化模式。

        nvidia-smi -pm 1

      2. 执行以下命令,打开并编辑“/etc/rc.local”文件。

        vim /etc/rc.local

      3. 配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。
      4. 按“Esc”,输入:wq保存并退出。
      5. 执行以下命令,添加启动权限。

        chmod +x /etc/rc.d/rc.local

    • 若未查到相关报错,执行下一步。
  3. 查看实例的Tesla驱动版本是否为510.xx.xx。
    • 是,该驱动版本与所用镜像可能存在兼容性问题,建议更换驱动版本,请参考安装GPU驱动
    • 否,请执行下一步。
  4. 如果仍未确认根因,请根据故障信息收集操作后联系技术支持处理。