手动安装GPU加速型ECS的Tesla驱动
操作场景
GPU加速型云服务器,需要安装Tesla驱动和CUDA工具包以实现计算加速功能。
- 使用公共镜像创建GPU加速型云服务器时,支持选择已包含特定版本GPU驱动的公共镜像或通过勾选“自动安装GPU驱动”的方式为云服务器安装GPU驱动。
若创建时未安装GPU驱动,则可参考本节操作完成Tesla驱动和CUDA工具包的安装。
- 使用私有镜像创建的GPU加速型云服务器,需在创建完成后安装Tesla驱动和CUDA工具包,否则无法实现计算加速功能。
当前部分实例规格以及公共镜像已支持使用自动化脚本安装GPU驱动,建议优先使用自动安装方式,脚本获取以及安装指导请参考(推荐)自动安装GPU加速型ECS的GPU驱动(Linux)和(推荐)自动安装GPU加速型ECS的GPU驱动(Windows)。
本节操作介绍手动方式为GPU加速型云服务器安装Tesla驱动及CUDA工具包的操作步骤。
约束与限制
- 仅支持为GPU加速性实例安装GPU驱动,GPU加速型的介绍和应用场景请参见GPU加速型。
- 云服务器需绑定弹性公网IP。
- 云服务器未安装Tesla驱动以及CUDA工具包。
- 从NVIDIA官网下载CUDA工具包进行安装,通常会同时自动安装一个和CUDA版本匹配的Tesla驱动,免去用户单独安装Tesla驱动的步骤。但是对NVIDIA驱动版本有强制要求或依赖时,请务必先单独从NVIDIA官网下载并安装匹配的Tesla驱动,然后再安装CUDA工具包。
- 如果云服务器已经安装了Tesla驱动,请检查当前驱动版本是否可用。如需安装新版本的驱动请卸载旧版本的Tesla驱动,避免因驱动程序冲突导致安装失败。
- 如果NVIDIA驱动版本与云服务器不兼容,会导致安装完成后驱动不显示,请参考T4 GPU设备显示异常进行处理。
- 云服务器的实例类型和Tesla驱动产品类型需匹配,对应关系如表1所示。
获取Telsa驱动及CUDA工具包
下面以Tesla T4下载驱动软件包及CUDA Toolkit为例进行介绍。
- 单击NVIDIA驱动下载,根据实例的类型,选择NVIDIA产品类型、产品系列和产品。
- 选择Linux操作系统,并指定CUDA Toolkit软件版本为11.6。 图1 指定CUDA Toolkit软件版本
- 选择对应的版本,下载CUDA软件包。
Linux操作系统云服务器安装Tesla驱动和CUDA工具包
以下操作以Ubuntu 20.04 64bit操作系统,GPU实例安装CUDA 10.1对应的Tesla驱动以及使用run包安装CUDA 10.1为例进行介绍。
Linux内核版本和驱动的版本存在兼容性关系。如果驱动安装失败,请检查驱动安装日志(安装日志通常位于/var/log/nvidia-installer.log)。 日志中如提示失败原因为驱动编译错误,例如 get_user_pages参数不匹配,说明当前内核版本与驱动版本不兼容,请选择合适的内核版本和驱动版本重新安装。建议内核版本与驱动版本发布时间不要相差过大。
安装Tesla驱动
- 登录云服务器。
- 根据操作系统选择命令更新系统软件。
- 下载NVIDIA驱动包。
单击NVIDIA驱动下载根据实例的类型,选择驱动。
图2 选择NVIDIA驱动
- 根据需求选择驱动版本,以下操作以选择Tesla 418.67为例。 图3 选择驱动版本
- 单击需要下载的驱动右侧的“View”,进入对应下载界面。
- 右键单击“Download”,复制下载的链接地址。
- 在云服务器内部执行如下命令进行下载。
wget 复制的链接地址
例如:wget http://us.download.nvidia.com/tesla/418.67/NVIDIA-Linux-x86_64-418.67.run
图4 获取安装包
- 执行以下命令安装驱动。
- (可选)如果执行驱动安装命令后出现如下提示信息,需要禁用nouveau驱动。 图5 禁用nouveau驱动
- 执行以下命令,查看是否安装Nouveau驱动。
- 执行如下命令编辑blacklist.conf文件。
如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。
vi /etc/modprobe.d/blacklist.conf
添加如下语句添加至文件结尾。
blacklist nouveau options nouveau modeset=0
- 执行以下命令,备份并新建一个initramfs。
- 执行以下命令,重启云服务器。
reboot
- 根据安装提示,连续三次选择“OK”。完成驱动的安装。 图6 NVIDIA驱动安装完成
- 执行命令设置systemd。
- 执行reboot,重启云服务器。
- 登录云服务器,执行nvidia-smi,如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。 图7 查看NVIDIA驱动的版本
安装CUDA工具包
- 登录云服务器。
- 根据操作系统选择命令更新系统软件。
- 在CUDA下载页面中,按照获取Telsa驱动及CUDA工具包中的对应的索引项在页面中进行选择。 图8 选择CUDA的版本
- 选择完成后,页面会自动呈现出Ubuntu 20.04 64bit对应的CUDA 10.1的下载地址,复制下载地址。
- 在云服务器内部执行如下命令进行下载。
wget 复制的链接地址
例如:wget https://developer.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.105_418.39_linux.run
图9 Linux云服务器下载CUDA
- CUDA工具包下载完成后,按照NVIDIA官网安装指引进行安装。
- 执行以下命令安装CUDA。
- 在安装界面输入“accept”,回车进入下一步。 图10 安装CUDA_1
- 选择“Install”,回车进入安装过程。 图11 安装CUDA_2
图12 安装CUDA完成
- (可选)检查CUDA是否安装成功。
- 执行以下命令查看CUDA的版本。 图14 查看CUDA的版本
- 执行以下命令启动持久模式。
启用持久模式设置可以优化Linux实例上GPU设备的性能。
Windows操作系统云服务器安装Tesla驱动和CUDA工具包
以下操作以Windows Server 2016 Standard 64bit操作系统,GPU实例安装Tesla驱动以及CUDA 10.1为例进行介绍。
安装Tesla驱动
- 登录云服务器。
- 下载NVIDIA驱动包。
单击NVIDIA驱动下载根据实例的类型,选择驱动版本。
图15 选择驱动类型(Windows)
- 根据需求选择驱动版本,本节操作以安装Tesla 425.25为例。 图16 选择驱动版本(Windows)
- 单击需要下载的驱动,进入对应下载界面。
- 单击“Download”,下载安装包。
- 双击驱动安装驱动,单击“运行”。 图17 运行NVIDIA驱动安装程序
- 选择安装路径,单击“OK”。 图18 选择NVIDIA驱动安装路径
- 根据安装提示完成NVIDIA程序的安装。 图19 完成NVIDIA驱动的安装
- 重启云服务器。
- 检查驱动是否安装成功。
- 进入“设备管理器”,查看“显示适配器”。 图20 显示适配器
- 打开云服务器cmd窗口,执行以下命令:
cd C:\Program Files\NVIDIA Corporation\NVSMI
nvidia-smi
如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。
图21 查看NVIDIA驱动安装版本
- 进入“设备管理器”,查看“显示适配器”。
安装CUDA工具包
- 登录云服务器。
- 在CUDA下载页面中,按照获取Telsa驱动及CUDA工具包中的对应的索引项在页面中进行选择。 图22 选择CUDA版本
- 选择完成后,页面会自动呈现出Windows Server 2016 Standard 64bit对应的CUDA 10.1的下载地址。 图23 Windows云服务器下载CUDA
- 单击“Download”下载CUDA工具包。
- 双击打开安装文件,单击“运行”安装CUDA工具包。 图24 Windows云服务器安装CUDA
- 选择安装地址,在“CUDA Setup Package”界面,单击“OK” 图25 选择CUDA安装路径
- 根据安装提示完成CUDA的安装。 图26 CUDA安装完成
相关文档
- (推荐)自动安装GPU加速型ECS的GPU驱动(Linux)
- 完成Tesla驱动安装后,如果执行nvidia-smi命令检查GPU使用情况时,显示“No devices were found”,表明系统未能识别NVIDIA显卡。对于使用NVIDIA Tesla T4 GPU的云服务器,请参考T4 GPU设备显示异常的处理方法;使用其他驱动的GPU云服务器,请参考GPU设备显示异常的处理方法。
- 在Linux操作系统的GPU加速型实例中,GPU驱动不可用怎么办?
- 在Linux操作系统的GPU加速型实例中,GPU驱动异常怎么办?
- 在Windows系统的G系列弹性云服务器中,无法打开NVIDIA 控制面板,GPU驱动无法使用或GPU驱动显示异常时怎么办?

