文档首页/ 弹性云服务器 ECS/ 故障排除/ GPU实例故障自诊断/ 非硬件故障自恢复处理方法/ 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题
更新时间:2024-05-09 GMT+08:00
分享

如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题

问题描述

用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。

判断方式

  1. 确认用户发生问题时的操作,是否有出现显存OOM。
  2. 如果用户使用的是vGPU实例,确认实例安装的驱动与主机的驱动版本是否匹配。
    1. 登录实例所在主机。
    2. 执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。

      版本配套关系:https://docs.nvidia.com/grid/index.html

处理方法

  1. 重启GPU弹性云服务器。
    • 若显示适配器恢复正常,则恢复完成。
    • 若仍异常,则执行下一步。
  2. 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动
  3. 如果用户使用的是vGPU实例,且实例驱动版本与主机版本不匹配,请重装版本匹配的驱动软件。

相关文档