更新时间:2024-08-15 GMT+08:00

如何处理infoROM错误

问题描述

Linux操作系统的云服务器在执行nvidia-smi命令报错“WARNING:infoROM is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响

问题原因

健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。

问题影响

可能影响ECC相关非易失数据的记录,导致本该隔离的GPU内存页面继续使用。

处理方法

  1. 如果用户业务暂未受损,则无需处理。
  2. 通知用户停止业务,执行虚拟机迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。