文档首页/
弹性云服务器 ECS/
故障排除/
GPU实例故障自诊断/
显卡故障诊断及处理方法/
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页
更新时间:2024-08-15 GMT+08:00
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页
问题原因
显存可能某个地方存在异常。
问题影响
可能影响一个或多个GPU的相关应用程序。
处理方法
执行nvidia-smi命令,查看显卡信息。
- 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。
- 如果在volatile Uncorr. ECC下ecc error = 0,可以执行nvidia-smi -q查看所有的卡。
- 如果Pending Page Blacklist 为No,且double bit ecc error较多,继续诊断是否达到换卡条件:
- 执行nvidia-smi –r命令,重置GPU。
- 执行nvidia-smi --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages.timestamp --format=csv,如果连续5次出现了double bit ecc错误,则联系技术支持换卡处理;否则,重置GPU后检查用户业务是否恢复正常,如果恢复正常则显卡可以继续使用。
父主题: 显卡故障诊断及处理方法