更新时间:2025-06-20 GMT+08:00
CCE AI套件(NVIDIA GPU)插件版本升级或回滚后,如何对GPU节点进行排水?
问题现象
在GPU节点上存在GPU虚拟化负载时,对CCE AI套件(NVIDIA GPU)插件进行版本升级或回滚,可能导致部分组件(GPU虚拟化和运行时组件)出现升级或回滚失败的情况。此时,为了保证插件的正常使用,需要对GPU节点进行排水操作,以排空节点中的GPU虚拟化负载。建议采取滚动排水策略,即每次仅对一个或少量GPU节点进行排水,避免大规模排水对业务产生影响。
解决方法
在对某个GPU节点进行排水时,请在其他节点中预留足够的GPU资源,以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败,从而影响业务运行。
- 登录CCE控制台,单击对应集群名称,进入集群“概览”页。
- 在左侧导航栏中,单击“集群 > 节点管理”。在右侧页面,切换至“节点”页签。在目标GPU节点的操作列,单击“更多 > 节点排水”。
图1 节点排水
- 在“节点排水”的弹窗中,单击“确定”。当节点中存在挂载emptyDir卷的Pod或不受controller管理的Pod时,请开启强制排水。
图2 配置排水信息
- 在该GPU节点的操作列,单击“更多 > 实例列表”。在“nvidia-gpu-device-plugin-xxx”实例的操作列,单击“更多 > 删除”。在“删除容器组”弹窗中,单击“是”。
此时,“nvidia-gpu-device-plugin-xxx”实例状态为“实例异常”,待其状态恢复为运行中且节点状态列出现“排水成功”时,则说明当前GPU节点已排空GPU虚拟化负载。图3 删除nvidia-gpu-device-plugin-xxx实例
- 在该GPU节点的操作列单击“更多 > 开启调度”,从而恢复GPU节点的正常使用。重复以上操作,直至所有GPU节点完成排水。