更新时间:2024-08-15 GMT+08:00

GPU实例故障分类列表

GPU实例故障的分类列表如表1所示。

表1 GPU实例故障分类列表

是否可恢复故障

故障类型

相关文档

可恢复故障,可按照相关文档自行恢复

镜像配置问题

如何处理Nouveau驱动未禁用导致的问题

ECC错误

如何处理ECC ERROR:存在待隔离页问题

内核升级问题

如何处理升级内核后,驱动不可用问题

GPU掉卡问题

如何处理GPU掉卡问题

显卡ERR!

如何处理显卡ERR!问题

软件安装问题

如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题

驱动兼容性问题

如何处理驱动兼容性问题

Xid问题

如何处理可恢复的Xid故障问题

显卡被禁用

如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题

镜像问题

如何处理用户使用场景与其选择的驱动、镜像不配套问题

License问题

如何处理用户安装了GRID驱动,但未购买、配置License问题

不可恢复故障,需联系技术支持处理

InfoROM错误

如何处理infoROM错误

ECC错误

如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页

如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡)

GPU掉卡

如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff

温度过高问题

如何处理GPU散热异常,执行nvidia-smi命令发现温度过高

驱动安装报错

如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'”

Xid报错

如何处理GPU虚拟机故障,在message日志中发现存在Xid报错