手动安装GPU加速型ECS的Tesla驱动
操作场景
GPU加速型云服务器,需要安装Tesla驱动和CUDA工具包以实现计算加速功能。
- 使用公共镜像创建的计算加速型(P系列)实例默认已安装特定版本的Tesla驱动。
- 使用私有镜像创建的GPU加速型云服务器,需在创建完成后安装Tesla驱动,否则无法实现计算加速功能。
本节操作介绍GPU云服务器安装Tesla驱动及CUDA工具包的操作步骤。
当前已支持使用自动化脚本安装GPU驱动,建议优先使用自动安装方式,脚本获取以及安装指导请参考(推荐)自动安装GPU加速型ECS的GPU驱动(Linux)和(推荐)自动安装GPU加速型ECS的GPU驱动(Windows)。
GPU虚拟化型实例,需要严格按照表1选择合适的驱动版本下载使用。
安装须知
- 云服务器已绑定弹性公网IP。
- 云服务器未安装Tesla驱动以及CUDA工具包。
- 从NVIDIA官网下载CUDA工具包进行安装,通常会同时自动安装一个和CUDA版本匹配的Tesla驱动,免去用户单独安装Tesla驱动的步骤。但是对NVIDIA驱动版本有强制要求或依赖时,请务必先单独从NVIDIA官网下载并安装匹配的Tesla驱动,然后再安装CUDA工具包。
- 如果云服务器已经安装了Tesla驱动,请检查当前驱动版本是否可用。如需安装新版本的驱动请卸载旧版本的Tesla驱动,避免因驱动程序冲突导致安装失败。
- 如果NVIDIA驱动版本与云服务器不兼容,会导致安装完成后驱动不显示,请参考T4 GPU设备显示异常进行处理。
Linux操作系统云服务器安装Tesla驱动
以下操作以Ubuntu 20.04 64bit操作系统,GPU实例安装CUDA 10.1对应的Tesla驱动为例。
Linux内核版本和驱动的版本存在兼容性关系。如果驱动安装失败,请检查驱动安装日志(安装日志通常位于/var/log/nvidia-installer.log)。 日志中如提示失败原因为驱动编译错误,例如 get_user_pages参数不匹配,说明当前内核版本与驱动版本不兼容,请选择合适的内核版本和驱动版本重新安装。建议内核版本与驱动版本发布时间不要相差过大。
- 登录云服务器。
- 根据操作系统选择命令更新系统软件。
- 下载NVIDIA驱动包。
单击NVIDIA驱动下载根据实例的类型,选择驱动。
图1 选择NVIDIA驱动
- 根据需求选择驱动版本,以下操作以选择Tesla 418.67为例。
图2 选择驱动版本
- 单击需要下载的驱动右侧的“View”,进入对应下载界面。
- 右键单击“Download”,复制下载的链接地址。
- 在云服务器内部执行如下命令进行下载。
wget 复制的链接地址
例如:wget http://us.download.nvidia.com/tesla/418.67/NVIDIA-Linux-x86_64-418.67.run
图3 获取安装包
- 执行以下命令安装驱动。
- (可选)如果执行驱动安装命令后出现如下提示信息,需要禁用nouveau驱动。
图4 禁用nouveau驱动
- 执行以下命令,查看是否安装Nouveau驱动。
- 执行如下命令编辑blacklist.conf文件。
如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。
vi /etc/modprobe.d/blacklist.conf
添加如下语句添加至文件结尾。
blacklist nouveau options nouveau modeset=0
- 执行以下命令,备份并新建一个initramfs。
- 执行以下命令,重启云服务器。
reboot
- 根据安装提示,连续三次选择“OK”。完成驱动的安装。
图5 NVIDIA驱动安装完成
- 执行命令设置systemd。
- 执行reboot,重启云服务器。
- 登录云服务器,执行nvidia-smi,如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。
图6 查看NVIDIA驱动的版本
Windows操作系统云服务器安装Tesla驱动
以下操作以Windows Server 2016 Standard 64bit操作系统,GPU实例安装Tesla驱动为例。
- 登录云服务器。
- 下载NVIDIA驱动包。
单击NVIDIA驱动下载根据实例的类型,选择驱动版本。
图7 选择驱动类型(Windows)
- 根据需求选择驱动版本,本节操作以安装Tesla 425.25为例。
图8 选择驱动版本(Windows)
- 单击需要下载的驱动,进入对应下载界面。
- 单击“Download”,下载安装包。
- 双击驱动安装驱动,单击“运行”。
图9 运行NVIDIA驱动安装程序
- 选择安装路径,单击“OK”。
图10 选择NVIDIA驱动安装路径
- 根据安装提示完成NVIDIA程序的安装。
图11 完成NVIDIA驱动的安装
- 重启云服务器。
- 检查驱动是否安装成功。
- 进入“设备管理器”,查看“显示适配器”。
图12 显示适配器
- 打开云服务器cmd窗口,执行以下命令:
cd C:\Program Files\NVIDIA Corporation\NVSMI
nvidia-smi
如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。
图13 查看NVIDIA驱动安装版本
- 进入“设备管理器”,查看“显示适配器”。
Linux操作系统安装CUDA工具包
以下操作以Ubuntu 20.04 64bit操作系统,GPU实例使用run包安装CUDA 10.1为例。
- 登录云服务器。
- 根据操作系统选择命令更新系统软件。
- 在CUDA下载页面中,按照Tesla驱动及CUDA工具包获取方式中的对应的索引项在页面中进行选择。
图14 选择CUDA的版本
- 选择完成后,页面会自动呈现出Ubuntu 20.04 64bit对应的CUDA 10.1的下载地址,复制下载地址。
- 在云服务器内部执行如下命令进行下载。
wget 复制的链接地址
例如:wget https://developer.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.105_418.39_linux.run
图15 Linux云服务器下载CUDA
- CUDA工具包下载完成后,按照NVIDIA官网安装指引进行安装。
- 执行以下命令安装CUDA。
- 在安装界面输入“accept”,回车进入下一步。
图16 安装CUDA_1
- 选择“Install”,回车进入安装过程。
图17 安装CUDA_2
图18 安装CUDA完成
- 执行以下命令进入/usr/local/cuda-10.1/samples/1_Utilities/deviceQuery 目录下。
- 执行make命令,自动编译deviceQuery程序。
- 执行以下命令查看CUDA是否安装成功。
如回显信息中有CUDA的版本信息证明CUDA安装成功。
图19 deviceQuery回显信息
- 执行以下命令查看CUDA的版本。
图20 查看CUDA的版本
- 执行以下命令启动持久模式。
启用持久模式设置可以优化Linux实例上GPU设备的性能。
Windows操作系统安装CUDA工具包
以下操作以Windows Server 2016 Standard 64bit操作系统GPU实例安装CUDA 10.1为例。
- 登录云服务器。
- 在CUDA下载页面中,按照CUDA工具包下载地址中的对应的索引项在页面中进行选择。
图21 选择CUDA版本
- 选择完成后,页面会自动呈现出Windows Server 2016 Standard 64bit对应的CUDA 10.1的下载地址。
图22 Windows云服务器下载CUDA
- 单击“Download”下载CUDA工具包。
- 双击打开安装文件,单击“运行”安装CUDA工具包。
图23 Windows云服务器安装CUDA
- 选择安装地址,在“CUDA Setup Package”界面,单击“OK”
图24 选择CUDA安装路径
- 根据安装提示完成CUDA的安装。
图25 CUDA安装完成