昇腾AI加速卡(NPU)应用异常如何解决?
故障现象
NPU应用下发失败或者NPU应用无法运行。
解决方法
NPU应用创建失败:
应用如果需要申请NPU资源,只能部署到启用昇腾AI加速卡的节点上。未在注册节点时启用昇腾AI加速卡的节点,部署申请NPU资源的应用会提示创建失败。
如下图,请在注册边缘节点时根据型号选择“昇腾AI加速卡”。
启用昇腾AI加速卡的节点,在节点详情页可以查看到AI加速卡的信息,确认健康芯片列表。
NPU应用运行状态异常:
- 确定当前应用申请的昇腾AI加速卡个数不大于节点的健康芯片数量,否则应用会调度失败。
在容器应用详情页面“更新升级”页签中确认:
- 登录边缘节点,查看npu插件是否异常。
docker ps -a |grep npu-plugin
- 如果容器状态异常,则重启容器。
docker restart $containerID
- 如果以上步骤仍未解决问题,请根据下发应用到边缘节点失败和容器应用在边缘节点启动失败继续排查。