文档首页> 弹性云服务器 ECS> 故障排除> GPU实例故障自诊断> 显卡故障诊断及处理方法> 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡)
更新时间:2024-05-09 GMT+08:00
分享

如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡)

问题原因

显存可能某个地方存在异常。

问题影响

可能影响一个或多个GPU的相关应用程序。

处理方法

执行nvidia-smi命令查看显卡信息。

  • 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。
  • 如果在volatile Uncorr. ECC下未发现ecc error,可以执行nvidia-smi -q查看所有的卡。
  • 如果volatile下Single Bit或Aggregate下的Single Bit仅有Device Memory项有数值增加,不影响使用,无需处理。
  • 如果volatile下Single Bit、Double bit或Aggregate下的Single Bit、Double bit存在Register File+L1 Cach +L2 Cache+Texture Memory+Texture Shared+CBU > 0,则根据故障信息收集收集故障信息后联系技术支持处理。

分享:

    相关文档

    相关产品