更新时间:2024-12-18 GMT+08:00
GPU/NPU Pod重建风险检查异常处理
检查项内容
检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。
解决方案
请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响;
如需帮助,请您提交工单联系运维人员获取支持。
父主题: 升级前检查异常问题排查