PCIeErrorFound事件处理建议
故障影响
可能造成客户的业务中断,客户无法使用该NPU卡。
告警解释
查到昇腾PCI设备信息中包含“rev ff”字段,表明有设备硬件版本(revision)未被正确识别或报告,上报PCIe链路异常事件。
告警参数
|
参数名称 |
参数含义 |
|---|---|
|
名称 |
NPU: PCIe链路异常 |
|
类型 |
故障类告警 |
|
发生时间 |
告警触发时间 |
|
定位信息 |
局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息 |
可能原因
可能是驱动或固件异常导致,也可能是硬件故障。
处理步骤
- 登录机器,执行命令查询NPU PCI设备信息。如果查到包含“rev ff”字段的PCI设备,则表明存在PICe链路异常情况。
lspci -d 19e5:| grep -E 'd100|d500|d801|d802|d803'

- 进一步确认,执行命令npu-smi info查看驱动识别的NPU卡基本信息。确认驱动识别到的卡数是否和该机器规格默认卡数一致,确认查看到有存在ECC或ERR的卡。
npu-smi info

- 如果确认是NPU PCIe链路异常,或者存在ECC或ERR的卡,则需要对该机器进行HA操作,收集上述排查信息,提交工单联系运维人员协助处理。
告警清除
此告警恢复后,关闭工单时清除方式选择清除网管告警即可。
参考信息
无