文档首页/ 弹性云服务器 ECS/ 故障排除/ GPU实例故障自诊断/ 非硬件故障自恢复处理方法/ 如何处理用户使用场景与其选择的驱动、镜像不配套问题
更新时间:2024-08-15 GMT+08:00

如何处理用户使用场景与其选择的驱动、镜像不配套问题

问题描述

  1. 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。

    例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature Level 11.0,Shader Model 5.0) is required to run the engine”。

  2. 用户业务是做渲染(推理)的,但用户选择了不带驱动的公共镜像,且未单独安装驱动,导致GPU能力不可用,执行nvidia-smi命令报错“command not found”。

判断方式

  1. 确认用户业务使用场景。
  2. 用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。
    • 如果用户使用的是异构发布的公共镜像,可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样,则选择该镜像会安装tesla驱动;如带有with grid字样,则选择该镜像会安装GRID驱动(不包括License)。
    • 如果用户使用的是私有镜像或其他镜像,可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。
    • 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式

处理方法

  1. 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。
  2. 如果用户已安装驱动,但驱动不匹配使用场景,请卸载驱动后重新安装。请参考安装GPU驱动