更新时间:2024-05-09 GMT+08:00
分享

如何处理升级内核后,驱动不可用问题

问题描述

  • 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。
  • 客户执行nvidia-smi,报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA diver。

判断方式

  1. 执行以下命令,查看当前内核版本。

    uname -r

  2. 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。
    • CentOS:find /usr/lib/modules -name nvidia.ko
    • Ubuntu:find /lib/modules -name nvidia.ko

    如果当前内核版本与安装驱动时的内核版本不一致,则确认为内核升级后导致的驱动不可用。

处理方法

  1. 依次执行以下命令,移除NVIDIA的驱动。

    rmmod nvidia_drm

    rmmod nvidia_modeset

    rmmod nvidia

  2. 执行以下命令,查看GPU信息。

    nvidia-smi

    • 如果回显正常,则问题已修复。
    • 如果回显仍报错,请参考GPU驱动不可用中的处理方法进行操作。

相关文档