更新时间:2026-02-06 GMT+08:00
分享

PCIeErrorFound事件处理建议

故障影响

可能造成客户的业务中断,客户无法使用该NPU卡。

告警解释

查到昇腾PCI设备信息中包含“rev ff”字段,表明有设备硬件版本(revision)未被正确识别或报告,上报PCIe链路异常事件。

告警参数

参数名称

参数含义

名称

NPU: PCIe链路异常

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

可能是驱动或固件异常导致,也可能是硬件故障。

处理步骤

  1. 登录机器,执行命令查询NPU PCI设备信息。如果查到包含“rev ff”字段的PCI设备,则表明存在PICe链路异常情况。
    lspci -d 19e5:| grep -E 'd100|d500|d801|d802|d803'

  2. 进一步确认,执行命令npu-smi info查看驱动识别的NPU卡基本信息。确认驱动识别到的卡数是否和该机器规格默认卡数一致,确认查看到有存在ECC或ERR的卡。
    npu-smi info

  3. 如果确认是NPU PCIe链路异常,或者存在ECC或ERR的卡,则需要对该机器进行HA操作,收集上述排查信息,提交工单联系运维人员协助处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档