文档首页/ 弹性云服务器 ECS/ 故障排除/ GPU实例故障自诊断/ 显卡故障诊断及处理方法/ 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高
更新时间:2024-08-15 GMT+08:00

如何处理GPU散热异常,执行nvidia-smi命令发现温度过高

问题原因

显卡散热异常、风扇损坏。

问题影响

显卡温度过高,影响用户业务。

处理方法

执行nvidia-smi命令,查看风扇是否正常。

  • 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。

  • 如果风扇显示ERR!,可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。
    • 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。
    • 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。