文档首页/ 弹性云服务器 ECS/ 故障排除/ GPU实例故障自诊断/ 显卡故障诊断及处理方法/ 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错
更新时间:2024-08-15 GMT+08:00

如何处理GPU虚拟机故障,在message日志中发现存在Xid报错

问题原因

XID

说明

32

Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏

74

NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。

79

GPU has fallen off the bus。总线脱落,需要下线维修

详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html

处理方法

  1. 执行dmesg | grep –i xid命令,查看是否存在xid报错。

  2. 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。