更新时间:2024-08-15 GMT+08:00
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡)
问题原因
显存可能某个地方存在异常。
问题影响
可能影响一个或多个GPU的相关应用程序。
处理方法
执行nvidia-smi命令查看显卡信息。
- 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。
- 如果在volatile Uncorr. ECC下未发现ecc error,可以执行nvidia-smi -q查看所有的卡。
- 如果volatile下Single Bit或Aggregate下的Single Bit仅有Device Memory项有数值增加,不影响使用,无需处理。
- 如果volatile下Single Bit、Double bit或Aggregate下的Single Bit、Double bit存在Register File+L1 Cach +L2 Cache+Texture Memory+Texture Shared+CBU > 0,则根据故障信息收集收集故障信息后联系技术支持处理。
父主题: 显卡故障诊断及处理方法