文档首页/ 弹性云服务器 ECS/ 故障排除/ GPU实例故障自诊断/ 显卡故障诊断及处理方法/ 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff
更新时间:2024-08-15 GMT+08:00

如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff

问题原因

某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。

问题影响

可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。

处理方法

  1. 用户停止业务并执行业务迁移。
  2. 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。