更新时间:2026-05-20 GMT+08:00
CCE AI套件(Ascend NPU)插件版本升级,如何对NPU节点进行排水?
问题现象
在NPU节点上存在NPU虚拟化负载时,对CCE AI套件(Ascend NPU)插件进行版本升级,可能导致部分组件(flexnpu-server)出现升级失败的情况。此时,为了保证插件的正常使用,需要对NPU节点进行排水操作,以排空节点中的NPU虚拟化负载。建议采取滚动排水策略,即每次仅对一个或少量NPU节点进行排水,避免大规模排水对业务产生影响。
解决方法
在对某个NPU节点进行排水时,请在其他节点中预留足够的NPU资源,以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败,从而影响业务运行。
- 登录CCE控制台,单击对应集群名称,进入集群“概览”页。
- 在左侧导航栏中,单击“集群 > 节点管理”。在右侧页面,切换至“节点”页签。在目标NPU节点的操作列,单击“更多 > 节点排水”。 图1 节点排水
- 在“节点排水”的弹窗中,单击“确定”。当节点中存在挂载emptyDir卷的Pod或不受controller管理的Pod时,强制排水会造成数据丢失,请先备份数据,再请开启强制排水。当节点状态列出现“排水成功”时,则说明当前NPU节点已排空NPU虚拟化负载。 图2 配置排水信息

- 在该NPU节点的操作列,单击“更多 > 实例列表”。在“flexnpu-server-xxx”实例的操作列,若看到Pod创建时间为当前时间且状态为运行中,则表明当前节点已升级完成。

- 在该NPU节点的操作列单击“更多 > 开启调度”,从而恢复NPU节点的正常使用。重复以上操作,直至所有NPU节点完成排水。