更新时间:2026-03-31 GMT+08:00
分享

p1服务器安装NVIDIA GPU驱动和CUDA工具包

操作场景

GPU加速型p1(physical.p1.large规格)裸金属服务器创建成功后,需安装NVIDIA GPU驱动和CUDA工具包,从而实现计算加速功能。

前提条件

不同的操作系统,安装NVIDIA GPU驱动和CUDA工具包的操作略有不同,具体如下:

CentOS 7.4安装操作

  1. 登录裸金属服务器,执行以下命令,切换至root权限。

    suroot

  2. (可选)如果不存在依赖包gccgcc-c++makekernel-devel,请执行以下命令进行安装。

    yuminstallgcc

    yuminstallgcc-c++

    yuminstallmake

    yuminstallkernel-devel-`uname-r`

  3. (可选)将Nouveau驱动列入黑名单。

    如果已经安装并加载了Nouveau的显卡驱动,请执行以下操作将Nouveau驱动列入黑名单以避免冲突。

    1. 编辑“/etc/modprobe.d/blacklist.conf”,在文件后面添加blacklistnouveau
    2. 运行以下命令备份与重建initramfs:

      mv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-r).img.bak

      dracut-v/boot/initramfs-$(uname-r).img$(uname-r)

    3. 重启:reboot

  4. (可选)如果X服务正在运行,请执行systemctlset-defaultmulti-user.target命令并重启裸金属服务器以进入多用户模式。
  5. (可选)安装NVIDIA GPU驱动。

    如果选择了特定版本的NVIDIA GPU驱动,而不是捆绑在CUDA工具包中的版本,则需要执行此步骤。

    1. 下载NVIDIA GPU驱动安装包NVIDIA-Linux-x86_64-xxx.yy.run(下载链接:https://www.nvidia.com/Download/index.aspx?lang=en),并将该安装包上传至裸金属服务器的“/tmp”目录下。
      图1 搜索NVIDIA驱动包(CentOS 7.4)
    2. 执行以下命令,安装NVIDIA GPU驱动。

      sh./NVIDIA-Linux-x86_64-xxx.yy.run

    3. 执行以下命令,删除安装包。

      rm-fNVIDIA-Linux-x86_64-xxx.yy.run

  6. 安装CUDA工具包。

    1. 下载CUDA Toolkit安装包cuda_a.b.cc_xxx.yy_linux.run(下载链接:https://developer.nvidia.com/cuda-downloads),并将该安装包上传至裸金属服务器的“/tmp”目录下。
    2. 执行以下命令,修改安装包的权限。

      chmod+xcuda_a.b.cc_xxx.yy_linux.run

    3. 执行以下命令,安装CUDA工具包。

      ./cuda_a.b.cc_xxx.yy_linux.run--toolkit--samples--silent--override--tmpdir=/tmp/

    4. 执行以下命令,删除安装包。

      rm-fcuda_a.b.cc_xxx.yy_linux.run

    5. 执行如下三条命令,验证是否安装成功。

      cd/usr/local/cuda/samples/1_Utilities/deviceQueryDrv/

      make

      ./deviceQueryDrv

      回显信息中包含“Result =PASS”,表示CUDA工具包和NVIDIA GPU驱动安装成功。

Ubuntu 16.04安装操作

  1. 登录裸金属服务器,执行以下命令,切换至root权限。

    sudoroot

  2. (可选)如果不存在依赖包gccg++make,请执行以下命令进行安装。

    apt-getinstallgcc

    apt-getinstallg++

    apt-getinstallmake

  3. (可选)将Nouveau驱动列入黑名单。

    如果已经安装并加载了Nouveau的显卡驱动,请执行以下操作将Nouveau驱动列入黑名单以避免冲突。

    1. 编辑“/etc/modprobe.d/blacklist.conf”,在文件后面加入以下内容:
      blacklist nouveau
      options nouveau modeset=0
    2. 执行以下命令备份与重建initramfs:

      mv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-r).img.bak

      sudoupdate-initramfs-u

    3. 重启:sudoreboot

  4. (可选)如果X服务正在运行,请执行systemctlset-defaultmulti-user.target命令并重启裸金属服务器以进入多用户模式。
  5. (可选)安装NVIDIA GPU驱动。

    如果选择了特定版本的NVIDIA GPU驱动,而不是捆绑在CUDA工具包中的版本,则需要执行此步骤。

    1. 下载NVIDIA GPU驱动安装包NVIDIA-Linux-x86_64-xxx.yy.run(下载链接:https://www.nvidia.com/Download/index.aspx?lang=en),并将该安装包上传至裸金属服务器的“/tmp”目录下。
      图2 搜索NVIDIA驱动包(Ubuntu 16.04)
    2. 执行以下命令,安装NVIDIA GPU驱动。

      sh./NVIDIA-Linux-x86_64-xxx.yy.run

    3. 执行以下命令,删除安装包。

      rm-fNVIDIA-Linux-x86_64-xxx.yy.run

  6. 安装CUDA工具包。

    1. 下载CUDA Toolkit安装包cuda_a.b.cc_xxx.yy_linux.run(下载链接:https://developer.nvidia.com/cuda-downloads),并将该安装包上传至裸金属服务器的“/tmp”目录下。
    2. 执行以下命令,修改安装包的权限。

      chmod+xcuda_a.b.cc_xxx.yy_linux.run

    3. 执行以下命令,安装CUDA工具包。

      ./cuda_a.b.cc_xxx.yy_linux.run--toolkit--samples--silent--override--tmpdir=/tmp/

    4. 执行以下命令,删除安装包。

      rm-fcuda_a.b.cc_xxx.yy_linux.run

    5. 执行如下三条命令,验证是否安装成功。

      cd/usr/local/cuda/samples/1_Utilities/deviceQueryDrv/

      make

      ./deviceQueryDrv

      回显信息中包含“Result =PASS”,表示CUDA工具包和NVIDIA GPU驱动安装成功。

相关文档