更新时间:2024-05-09 GMT+08:00
分享

如何处理GPU掉卡问题

问题描述

执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。

如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。

判断方式

执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继续按照处理方法处理;如果查找不到显卡或者显示状态为rev ff,请根据显卡故障诊断及处理方法进行故障诊断。规格对应显卡数量可以通过GPU加速型查询。

lspci | grep -i nvidia

处理方法

  • 非CCE集群场景,建议尝试自行重装驱动,或升级驱动版本后执行nvidia-smi,查看是否还存在少卡现象;若仍显示少卡,请根据故障信息收集收集故障信息后联系技术支持处理。
  • CCE集群场景,请根据故障信息收集收集故障信息后联系技术支持处理。

相关文档