如何处理GPU掉卡问题
问题描述
执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。
如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。
判断方式
执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继续按照处理方法处理;如果查找不到显卡或者显示状态为rev ff,请根据显卡故障诊断及处理方法进行故障诊断。规格对应显卡数量可以通过GPU加速型查询。
lspci | grep -i nvidia