GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML
问题现象
华为云裸金属服务器,NVIDIA驱动卸载后重新安装。
(1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
(2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library version mismatch
处理方法
执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下:
nvidia_uvm 634880 8 nvidia_drm 53248 0 nvidia_modeset 790528 1 nvidia_drm nvidia 12312576 86 nvidia_modeset,nvidia_uvm
卸载nvidia相关模块
sudo rmmod nvidia_drm sudo rmmod nvidia_modeset sudo rmmod nvidia_uvm
最后卸载nvidia
sudo rmmod nvidia
如果遇到“rmmod: ERROR: Module nvidia is in use”,执行以下命令:
sudo lsof /dev/nvidia*
并再次验证:
lsmod | grep nvidia
再次执行“nvidia-smi”,显示成功,且是最新安装的NVIDIA驱动。