更新时间:2024-06-17 GMT+08:00
分享

GPU/NPU Pod重建风险检查异常处理

检查项内容

检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。

解决方案

请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响。如需帮助,请联系运维人员获取支持。

分享:

    相关文档

    相关产品