文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ NPUSMICardNotFound事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

NPUSMICardNotFound事件处理建议

故障影响

NPU卡无法正常使用。

告警解释

npu-smi info查询缺少设备。

告警参数

参数名称

参数含义

名称

NPU: npu-smi info查询缺少设备

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

可能是由于昇腾驱动问题或NPU掉卡。

处理步骤

  1. 建议客户隔离该节点。不同客户处理方式不同,一般使用K8s管理的,通过打污点标签达成隔离目标。
  2. 训练任务退出后重新执行,推理任务可重新发起请求。若该节点本来没有任务运行,跳过此步骤。
  3. 故障节点执行重启尝试恢复,重启后执行npu-smi info 命令,若控制台打印的卡数量和预期一致,则说明故障恢复,机器可以重新使用,解除对该节点的隔离。
  4. 若重启无法恢复,建议提工单,联系运维人员协助处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档