如何处理GPU虚拟机故障,在message日志中发现存在Xid报错
问题原因
XID |
说明 |
---|---|
32 |
Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 |
74 |
NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。 |
79 |
GPU has fallen off the bus。总线脱落,需要下线维修 |
详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html。
处理方法
- 执行dmesg | grep –i xid命令,查看是否存在xid报错。
- 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。