更新时间:2024-07-22 GMT+08:00
如何处理用户使用场景与其选择的驱动、镜像不配套问题
问题描述
判断方式
- 确认用户业务使用场景。
- 用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。
- 如果用户使用的是异构发布的公共镜像,可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样,则选择该镜像会安装tesla驱动;如带有with grid字样,则选择该镜像会安装GRID驱动(不包括License)。
- 如果用户使用的是私有镜像或其他镜像,可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。
- 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。
处理方法
- 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。
- 如果用户已安装驱动,但驱动不匹配使用场景,请卸载驱动后重新安装。请参考安装GPU驱动。
父主题: 非硬件故障自恢复处理方法