更新时间:2024-10-15 GMT+08:00
分享

GPU/NPU Pod重建风险检查异常处理

检查项内容

检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。

解决方案

请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响;

如需帮助,请您提交工单联系运维人员获取支持。

相关文档