更新时间:2024-05-09 GMT+08:00
如何处理infoROM错误
问题描述
Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。
问题原因
健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。
问题影响
可能影响ECC相关非易失数据的记录,导致本该隔离的GPU内存页面继续使用。
处理方法
- 如果用户业务暂未受损,则无需处理。
- 通知用户停止业务,执行虚拟机迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。
父主题: 显卡故障诊断及处理方法