更新时间:2023-03-03 GMT+08:00

GPU驱动异常怎么办?

问题描述

在GPU实例中,执行以下命令查看GPU使用情况,提示系统无法执行指定的程序、或文件路径不存在。

nvidia-smi

回显信息如下所示:

-bash: /bin/nvidia-smi: No such file or directory

nvidia-smi: command not found

可能原因

云服务器驱动异常、没有安装驱动或者驱动被卸载。

处理方法

  • 如果未安装GPU驱动,请重新安装GPU驱动。

    操作指导请参考:安装GPU驱动

  • 如果已安装驱动,但是驱动被卸载。

    执行history,查看是否执行过卸载操作。

    进入/var/log目录,查看是否有nvidia-uninstall.log日志,如果有说明GPU驱动已被卸载,请重新安装GPU驱动。

  • 如果已安装驱动,但是驱动状态异常。
    1. 卸载驱动。
      • 方法1:执行nvidia-uninstall命令,卸载驱动。

        如果提示命令不存在可以执行 查询云服务器安装的驱动版本:whereis n...卸载驱动。

      • 方法2:查询云服务器安装的驱动版本:whereis nvidia
        图1 查询安装的驱动版本

        根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为了执行卸载动作,且后续重新安装驱动时需要此安装包)。

        以驱动版本nvidia-396.44为例,执行sh NVIDIA-Linux-x86_64-396.44.run --uninstall,卸载驱动

    2. 重装驱动。

      操作指导请参考:安装GPU驱动