p3服务器安装NVIDIA GPU驱动和CUDA工具包

操作场景

GPU加速型p3（physical.p3.large规格）裸金属服务器创建成功后，需安装NVIDIA GPU驱动和CUDA工具包，从而实现计算加速功能。

前提条件

已绑定弹性公网IP。

已下载对应操作系统所需驱动的安装包。

表1 NVIDIA GPU驱动和CUDA工具包下载
操作系统	需要下载的驱动	下载地址
Ubuntu 16.04、CentOS 7.4	NVIDIA GPU驱动安装包“NVIDIA-Linux-x86_64-384.81.run”	http://www.nvidia.com/download/driverResults.aspx/124722/en-us
Ubuntu 16.04、CentOS 7.4	CUDA工具包安装包“cuda_9.0.176_384.81_linux.run”	https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=runfilelocal

不同的操作系统，安装NVIDIA GPU驱动和CUDA工具包的操作略有不同，具体如下：

CentOS 7.4安装操作

登录裸金属服务器，执行以下命令，切换至root权限。

su root
（可选）如果不存在依赖包gcc、gcc-c++、make和kernel-devel，请执行以下命令进行安装。

yum install gcc

yum install gcc-c++

yum install make

yum install kernel-devel-`uname -r`
（可选）将Nouveau驱动列入黑名单。

如果已经安装并加载了Nouveau的显卡驱动，请执行以下操作将Nouveau驱动列入黑名单以避免冲突。
1. 编辑“/etc/modprobe.d/blacklist.conf”，在文件后面添加blacklist nouveau。
2. 运行以下命令备份与重建initramfs：
  mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
  
  dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
3. 重启：reboot。
（可选）如果X服务正在运行，请执行systemctl set-default multi-user.target命令并重启裸金属服务器以进入多用户模式。
（可选）安装NVIDIA GPU驱动。

如果选择了特定版本的NVIDIA GPU驱动，而不是捆绑在CUDA工具包中的版本，则需要执行此步骤。
1. 下载NVIDIA GPU驱动安装包NVIDIA-Linux-x86_64-xxx.yy.run（下载链接：https://www.nvidia.com/Download/index.aspx?lang=en），并将该安装包上传至裸金属服务器的“/tmp”目录下。
  图1 搜索NVIDIA驱动包（CentOS 7.4）
2. 执行以下命令，安装NVIDIA GPU驱动。
  sh ./NVIDIA-Linux-x86_64-xxx.yy.run
3. 执行以下命令，删除安装包。
  rm -f NVIDIA-Linux-x86_64-xxx.yy.run
安装CUDA工具包。
1. 下载CUDA Toolkit安装包cuda_a.b.cc_xxx.yy_linux.run（下载链接：https://developer.nvidia.com/cuda-downloads），并将该安装包上传至裸金属服务器的“/tmp”目录下。
2. 执行以下命令，修改安装包的权限。
  chmod +x cuda_a.b.cc_xxx.yy_linux.run
3. 执行以下命令，安装CUDA工具包。
  ./cuda_a.b.cc_xxx.yy_linux.run --toolkit --samples --silent --override --tmpdir=/tmp/
4. 执行以下命令，删除安装包。
  rm -f cuda_a.b.cc_xxx.yy_linux.run
5. 执行如下三条命令，验证是否安装成功。
  cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/
  
  make
  
  ./deviceQueryDrv
  
  回显信息中包含“Result = PASS”，表示CUDA工具包和NVIDIA GPU驱动安装成功。

Ubuntu 16.04安装操作

登录裸金属服务器，执行以下命令，切换至root权限。

sudo root
（可选）如果不存在依赖包gcc、g++和make，请执行以下命令进行安装。

apt-get install gcc

apt-get install g++

apt-get install make
（可选）将Nouveau驱动列入黑名单。

如果已经安装并加载了Nouveau的显卡驱动，请执行以下操作将Nouveau驱动列入黑名单以避免冲突。
1. 编辑“/etc/modprobe.d/blacklist.conf”，在文件后面加入以下内容：
```
blacklist nouveau
options nouveau modeset=0
```
2. 执行以下命令备份与重建initramfs：
  mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
  
  sudo update-initramfs -u
3. 重启：sudo reboot
（可选）如果X服务正在运行，请执行systemctl set-default multi-user.target命令并重启裸金属服务器以进入多用户模式。
（可选）安装NVIDIA GPU驱动。

如果选择了特定版本的NVIDIA GPU驱动，而不是捆绑在CUDA工具包中的版本，则需要执行此步骤。
1. 下载NVIDIA GPU驱动安装包NVIDIA-Linux-x86_64-xxx.yy.run（下载链接：https://www.nvidia.com/Download/index.aspx?lang=en），并将该安装包上传至裸金属服务器的“/tmp”目录下。
  图2 搜索NVIDIA驱动包
2. 执行以下命令，安装NVIDIA GPU驱动。
  sh ./NVIDIA-Linux-x86_64-xxx.yy.run
3. 执行以下命令，删除安装包。
  rm -f NVIDIA-Linux-x86_64-xxx.yy.run
安装CUDA工具包。
1. 下载CUDA Toolkit安装包cuda_a.b.cc_xxx.yy_linux.run（下载链接：https://developer.nvidia.com/cuda-downloads），并将该安装包上传至裸金属服务器的“/tmp”目录下。
2. 执行以下命令，修改安装包的权限。
  chmod +x cuda_a.b.cc_xxx.yy_linux.run
3. 执行以下命令，安装CUDA工具包。
  ./cuda_a.b.cc_xxx.yy_linux.run --toolkit --samples --silent --override --tmpdir=/tmp/
4. 执行以下命令，删除安装包。
  rm -f cuda_a.b.cc_xxx.yy_linux.run
5. 执行如下三条命令，验证是否安装成功。
  cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/
  
  make
  
  ./deviceQueryDrv
  
  回显信息中包含“Result = PASS”，表示CUDA工具包和NVIDIA GPU驱动安装成功。
6. 执行以下命令，验证驱动是否正常使用。
  nvidia-smi topo -m
  
  回显信息中如果正常显示GPU的信息，则表示驱动可正常使用。