NPUSMICardNotFound事件处理建议
故障影响
NPU卡无法正常使用。
告警解释
npu-smi info查询缺少设备。
告警参数
|
参数名称 |
参数含义 |
|---|---|
|
名称 |
NPU: npu-smi info查询缺少设备 |
|
类型 |
故障类告警 |
|
发生时间 |
告警触发时间 |
|
定位信息 |
局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息 |
可能原因
可能是由于昇腾驱动问题或NPU掉卡。
处理步骤
- 建议客户隔离该节点。不同客户处理方式不同,一般使用K8s管理的,通过打污点标签达成隔离目标。
- 训练任务退出后重新执行,推理任务可重新发起请求。若该节点本来没有任务运行,跳过此步骤。
- 故障节点执行重启尝试恢复,重启后执行npu-smi info 命令,若控制台打印的卡数量和预期一致,则说明故障恢复,机器可以重新使用,解除对该节点的隔离。
- 若重启无法恢复,建议提工单,联系运维人员协助处理。
告警清除
此告警恢复后,关闭工单时清除方式选择清除网管告警即可。
参考信息
无