NpuDriverFirmwareMismatch事件处理建议
故障影响
可能造成客户的业务中断,客户无法使用NPU卡。
告警解释
NPU驱动固件是有配套关系的,当前机器上驱动固件可能不匹配。
告警参数
|
参数名称 |
参数含义 |
|---|---|
|
名称 |
NPU驱动固件版本不匹配 |
|
类型 |
故障类告警 |
|
发生时间 |
告警触发时间 |
|
定位信息 |
局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息 |
可能原因
客户更新驱动导致,驱动固件不匹配。
处理步骤
- 登录机器,执行命令查询NPU驱动是否正常。
npu-smi info

- 执行命令查看NPU驱动固件版本匹配情况,如果发现Compatibility字段值为非OK时,则表明当前机器上驱动固件不匹配。
npu-smi info -t board -i 0

- 如果确认是NPU驱动固件版本不匹配故障,建议客户选择配套的NPU驱动固件进行更新替换。
告警清除
此告警恢复后,关闭工单时清除方式选择清除网管告警即可。
参考信息
无