LspciCardNotFound事件处理建议
故障影响
可能造成客户的业务中断,客户无法使用该NPU卡。
告警解释
lspci查到的NPU卡数少于实际该规格应发卡数。
告警参数
|
参数名称 |
参数含义 |
|---|---|
|
名称 |
NPU: lspci查询缺少设备 |
|
类型 |
故障类告警 |
|
发生时间 |
告警触发时间 |
|
定位信息 |
局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息 |
可能原因
可能是驱动或固件异常导致丢卡,也可能是硬件故障丢卡。
处理步骤
- 登录机器,执行命令查询NPU PCIe设备信息。如果查询到的PCIe设备数少于该机器规格应发卡数,则表明是PCIe设备丢失。
lspci -d 19e5:| grep -E 'd100|d500|d801|d802'

- 进一步确认,执行命令npu-smi info查询驱动识别的NPU卡基本信息。如果驱动识别到的卡数少于该机器规格应发卡数,则表明有丢卡。
npu-smi info

- 如果确认是PCIe设备丢失故障,则需要对该机器进行HA操作,收集上述排查信息,提交工单联系运维人员协助处理。
告警清除
此告警恢复后,关闭工单时清除方式选择清除网管告警即可。
参考信息
无