可恢复故障,可按照相关文档自行恢复 | 镜像配置问题 | 如何处理Nouveau驱动未禁用导致的问题 |
ECC错误 | 如何处理ECC ERROR:存在待隔离页问题 |
内核升级问题 | 如何处理升级内核后,驱动不可用问题 |
GPU掉卡问题 | 如何处理GPU掉卡问题 |
显卡ERR! | 如何处理显卡ERR!问题 |
软件安装问题 | 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 |
驱动兼容性问题 | 如何处理驱动兼容性问题 |
Xid问题 | 如何处理可恢复的Xid故障问题 |
显卡被禁用 | 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 |
镜像问题 | 如何处理用户使用场景与其选择的驱动、镜像不配套问题 |
License问题 | 如何处理用户安装了GRID驱动,但未购买、配置License问题 |
不可恢复故障,需联系技术支持处理 | InfoROM错误 | 如何处理infoROM错误 |
ECC错误 | 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 |
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) |
GPU掉卡 | 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff |
温度过高问题 | 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 |
驱动安装报错 | 如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” |
Xid报错 | 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 |