CCE AI套件（NVIDIA GPU）插件版本升级或回滚后，如何对GPU节点进行排水？

问题现象

在GPU节点上存在GPU虚拟化负载时，对CCE AI套件（NVIDIA GPU）插件进行版本升级或回滚，可能导致部分组件（GPU虚拟化和运行时组件）出现升级或回滚失败的情况。此时，为了保证插件的正常使用，需要对GPU节点进行排水操作，以排空节点中的GPU虚拟化负载。建议采取滚动排水策略，即每次仅对一个或少量GPU节点进行排水，避免大规模排水对业务产生影响。

解决方法

在对某个GPU节点进行排水时，请在其他节点中预留足够的GPU资源，以满足节点排空过程中的Pod调度需求，防止资源不足导致Pod调度失败，从而影响业务运行。

登录CCE控制台，单击对应集群名称，进入集群“概览”页。
在左侧导航栏中，单击“集群 > 节点管理”。在右侧页面，切换至“节点”页签。在目标GPU节点的操作列，单击“更多 > 节点排水”。

图1 节点排水
在“节点排水”的弹窗中，单击“确定”。当节点中存在挂载emptyDir卷的Pod或不受controller管理的Pod时，请开启强制排水。

图2 配置排水信息
在该GPU节点的操作列，单击“更多 > 实例列表”。在“nvidia-gpu-device-plugin-xxx”实例的操作列，单击“更多 > 删除”。在“删除容器组”弹窗中，单击“是”。

此时，“nvidia-gpu-device-plugin-xxx”实例状态为“实例异常”，待其状态恢复为运行中且节点状态列出现“排水成功”时，则说明当前GPU节点已排空GPU虚拟化负载。
图3 删除nvidia-gpu-device-plugin-xxx实例
在该GPU节点的操作列单击“更多 > 开启调度”，从而恢复GPU节点的正常使用。重复以上操作，直至所有GPU节点完成排水。

父主题：模板插件

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试