手动安装GPU加速型ECS的Tesla驱动
操作场景
GPU加速型云服务器,需要安装Tesla驱动和CUDA工具包以实现计算加速功能。
- 使用公共镜像创建的计算加速型(P系列)实例默认已安装特定版本的Tesla驱动。
 - 使用私有镜像创建的GPU加速型云服务器,需在创建完成后安装Tesla驱动,否则无法实现计算加速功能。
 
本节操作介绍GPU云服务器安装Tesla驱动及CUDA工具包的操作步骤。
安装须知
- 云服务器已绑定弹性公网IP。
 - 云服务器未安装Tesla驱动以及CUDA工具包。
 
 
    - 从NVIDIA官网下载CUDA工具包进行安装,通常会同时自动安装一个和CUDA版本匹配的Tesla驱动,免去用户单独安装Tesla驱动的步骤。但是对NVIDIA驱动版本有强制要求或依赖时,请务必先单独从NVIDIA官网下载并安装匹配的Tesla驱动,然后再安装CUDA工具包。
 - 如果云服务器已经安装了Tesla驱动,请检查当前驱动版本是否可用。如需安装新版本的驱动请卸载旧版本的Tesla驱动,避免因驱动程序冲突导致安装失败。
 
Linux操作系统云服务器安装Tesla驱动
以下操作以Ubuntu 20.04 64bit操作系统,GPU实例安装CUDA 10.1对应的Tesla驱动为例。
 
    Linux内核版本和驱动的版本存在兼容性关系。如果驱动安装失败,请检查驱动安装日志(安装日志通常位于/var/log/nvidia-installer.log)。 日志中如提示失败原因为驱动编译错误,例如 get_user_pages参数不匹配,说明当前内核版本与驱动版本不兼容,请选择合适的内核版本和驱动版本重新安装。建议内核版本与驱动版本发布时间不要相差过大。
- 登录云服务器。
 - 根据操作系统选择命令更新系统软件。
 - 下载NVIDIA驱动包。 
     
单击NVIDIA驱动下载根据实例的类型,选择驱动。
图1 选择NVIDIA驱动
      - 根据需求选择驱动版本,以下操作以选择Tesla 418.67为例。 
     图2 选择驱动版本
      - 单击需要下载的驱动右侧的“View”,进入对应下载界面。
 - 右键单击“Download”,复制下载的链接地址。
 - 在云服务器内部执行如下命令进行下载。 
     
wget 复制的链接地址
例如:wget http://us.download.nvidia.com/tesla/418.67/NVIDIA-Linux-x86_64-418.67.run
图3 获取安装包
      - 执行以下命令安装驱动。
 - (可选)如果执行驱动安装命令后出现如下提示信息,需要禁用nouveau驱动。 
     图4 禁用nouveau驱动
     - 执行以下命令,查看是否安装Nouveau驱动。
 - 执行如下命令编辑blacklist.conf文件。 
       
如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。
vi /etc/modprobe.d/blacklist.conf
添加如下语句添加至文件结尾。
blacklist nouveau options nouveau modeset=0
 
- 执行以下命令,备份并新建一个initramfs。
 
- 执行以下命令,重启云服务器。 
       
reboot
 
 - 根据安装提示,连续三次选择“OK”。完成驱动的安装。 
     图5 NVIDIA驱动安装完成
      - 执行命令设置systemd。
 - 执行reboot,重启云服务器。
 - 登录云服务器,执行nvidia-smi,如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。 
     图6 查看NVIDIA驱动的版本
      
Windows操作系统云服务器安装Tesla驱动
以下操作以Windows Server 2016 Standard 64bit操作系统,GPU实例安装Tesla驱动为例。
- 登录云服务器。
 - 下载NVIDIA驱动包。 
     
单击NVIDIA驱动下载根据实例的类型,选择驱动版本。
图7 选择驱动类型(Windows)
      - 根据需求选择驱动版本,本节操作以安装Tesla 425.25为例。 
     图8 选择驱动版本(Windows)
      - 单击需要下载的驱动,进入对应下载界面。
 - 单击“Download”,下载安装包。
 - 双击驱动安装驱动,单击“运行”。 
     图9 运行NVIDIA驱动安装程序
      - 选择安装路径,单击“OK”。 
     图10 选择NVIDIA驱动安装路径
      - 根据安装提示完成NVIDIA程序的安装。 
     图11 完成NVIDIA驱动的安装
      - 重启云服务器。
 - 检查驱动是否安装成功。 
     
- 进入“设备管理器”,查看“显示适配器”。 
       图12 显示适配器
        
- 打开云服务器cmd窗口,执行以下命令: 
       
cd C:\Program Files\NVIDIA Corporation\NVSMI
nvidia-smi
如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。
图13 查看NVIDIA驱动安装版本
        
 - 进入“设备管理器”,查看“显示适配器”。 
       
 
Linux操作系统安装CUDA工具包
以下操作以Ubuntu 20.04 64bit操作系统,GPU实例使用run包安装CUDA 10.1为例。
- 登录云服务器。
 - 根据操作系统选择命令更新系统软件。
 - 在CUDA下载页面中,按照Tesla驱动及CUDA工具包获取方式中的对应的索引项在页面中进行选择。 
     图14 选择CUDA的版本
      - 选择完成后,页面会自动呈现出Ubuntu 20.04 64bit对应的CUDA 10.1的下载地址,复制下载地址。
 
- 在云服务器内部执行如下命令进行下载。 
     
wget 复制的链接地址
例如:wget https://developer.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.105_418.39_linux.run
图15 Linux云服务器下载CUDA
      
- CUDA工具包下载完成后,按照NVIDIA官网安装指引进行安装。
 - 执行以下命令安装CUDA。
 - 在安装界面输入“accept”,回车进入下一步。 
     图16 安装CUDA_1
      - 选择“Install”,回车进入安装过程。 
     图17 安装CUDA_2
     图18 安装CUDA完成
      - (可选)检查CUDA是否安装成功。
 - 执行以下命令查看CUDA的版本。 
     
     图20 查看CUDA的版本
      - 执行以下命令启动持久模式。 
     
     
启用持久模式设置可以优化Linux实例上GPU设备的性能。
 
Windows操作系统安装CUDA工具包
以下操作以Windows Server 2016 Standard 64bit操作系统GPU实例安装CUDA 10.1为例。
- 登录云服务器。
 - 在CUDA下载页面中,按照CUDA工具包下载地址中的对应的索引项在页面中进行选择。 
     图21 选择CUDA版本
      - 选择完成后,页面会自动呈现出Windows Server 2016 Standard 64bit对应的CUDA 10.1的下载地址。 
     图22 Windows云服务器下载CUDA
      - 单击“Download”下载CUDA工具包。
 - 双击打开安装文件,单击“运行”安装CUDA工具包。 
     图23 Windows云服务器安装CUDA
      - 选择安装地址,在“CUDA Setup Package”界面,单击“OK” 
     图24 选择CUDA安装路径
      - 根据安装提示完成CUDA的安装。 
     图25 CUDA安装完成
      
    
      
