文档首页/ 弹性云服务器 ECS/ 故障排除/ GPU实例故障自诊断/ 显卡故障诊断及处理方法/ 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页
更新时间:2024-05-09 GMT+08:00
分享

如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页

问题原因

显存可能某个地方存在异常。

问题影响

可能影响一个或多个GPU的相关应用程序。

处理方法

执行nvidia-smi命令,查看显卡信息。

  • 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。
  • 如果在volatile Uncorr. ECC下ecc error = 0,可以执行nvidia-smi -q查看所有的卡。
  • 如果Pending Page Blacklist 为No,且double bit ecc error较多,继续诊断是否达到换卡条件:
    1. 执行nvidia-smi –r命令,重置GPU。
    2. 执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages.timestamp --format=csv,如果连续5次出现了double bit ecc错误,则联系技术支持换卡处理;否则,重置GPU后检查用户业务是否恢复正常,如果恢复正常则显卡可以继续使用。

相关文档