文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ LspciCardNotFound事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

LspciCardNotFound事件处理建议

故障影响

可能造成客户的业务中断,客户无法使用该NPU卡。

告警解释

lspci查到的NPU卡数少于实际该规格应发卡数。

告警参数

参数名称

参数含义

名称

NPU: lspci查询缺少设备

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

可能是驱动或固件异常导致丢卡,也可能是硬件故障丢卡。

处理步骤

  1. 登录机器,执行命令查询NPU PCIe设备信息。如果查询到的PCIe设备数少于该机器规格应发卡数,则表明是PCIe设备丢失。
    lspci -d 19e5:| grep -E 'd100|d500|d801|d802'

  2. 进一步确认,执行命令npu-smi info查询驱动识别的NPU卡基本信息。如果驱动识别到的卡数少于该机器规格应发卡数,则表明有丢卡。
    npu-smi info

  3. 如果确认是PCIe设备丢失故障,则需要对该机器进行HA操作,收集上述排查信息,提交工单联系运维人员协助处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档