文档首页/ 云容器引擎 CCE/ 常见问题/ 模板插件/ CCE AI套件(NVIDIA GPU)插件版本升级或回滚后,如何对GPU节点进行排水?
更新时间:2025-06-20 GMT+08:00

CCE AI套件(NVIDIA GPU)插件版本升级或回滚后,如何对GPU节点进行排水?

问题现象

在GPU节点上存在GPU虚拟化负载时,对CCE AI套件(NVIDIA GPU)插件进行版本升级或回滚,可能导致部分组件(GPU虚拟化和运行时组件)出现升级或回滚失败的情况。此时,为了保证插件的正常使用,需要对GPU节点进行排水操作,以排空节点中的GPU虚拟化负载。建议采取滚动排水策略,即每次仅对一个或少量GPU节点进行排水,避免大规模排水对业务产生影响。

解决方法

在对某个GPU节点进行排水时,请在其他节点中预留足够的GPU资源,以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败,从而影响业务运行。

  1. 登录CCE控制台,单击对应集群名称,进入集群“概览”页。
  2. 在左侧导航栏中,单击“集群 > 节点管理”。在右侧页面,切换至“节点”页签。在目标GPU节点的操作列,单击“更多 > 节点排水”

    图1 节点排水

  3. 在“节点排水”的弹窗中,单击“确定”。当节点中存在挂载emptyDir卷的Pod或不受controller管理的Pod时,请开启强制排水。

    图2 配置排水信息

  4. 在该GPU节点的操作列,单击“更多 > 实例列表”。在“nvidia-gpu-device-plugin-xxx实例的操作列,单击“更多 > 删除”。在“删除容器组”弹窗中,单击“是”

    此时,“nvidia-gpu-device-plugin-xxx”实例状态为“实例异常”,待其状态恢复为运行中且节点状态列出现“排水成功”时,则说明当前GPU节点已排空GPU虚拟化负载。
    图3 删除nvidia-gpu-device-plugin-xxx实例

  5. 在该GPU节点的操作列单击“更多 > 开启调度”,从而恢复GPU节点的正常使用。重复以上操作,直至所有GPU节点完成排水。