更新时间:2025-07-18 GMT+08:00

节点OS检查异常处理

检查项内容

检查节点操作系统内核版本是否为CCE支持的版本。

解决方案

  • 问题场景一:节点镜像非CCE标准镜像

    CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案

    当前CCE不建议该类节点进行升级,建议您在升级前重置节点至标准内核版本。

  • 问题场景二:特殊版本镜像存在缺陷

    检查到本次升级涉及1.17 欧拉2.8 Arm镜像,该版本镜像存在缺陷,其上docker重启后将影响"docker exec"命令,升级集群版本时将触发docker版本更新,触发docker重启,因此存在建议:

    1. 建议您提前排空、隔离该节点后进行集群升级。
    2. 建议您升级至1.19及更高版本后,通过重置节点操作更换更高版本镜像,例如欧拉2.9镜像。
  • 问题场景三:集群升级过程中,出现报错信息check node pool os error或node xxx with os xxx not support upgrade,且该集群中包含使用Snt3NPU卡的EulerOS 2.8 arm节点

    检测到操作系统与集群版本不匹配,即Standard/Turbo集群v1.28及以上版本不再支持EulerOS 2.8 arm(已EOS)。由于Snt3 ARM机型最高支持至EulerOS 2.8 arm,因此集群无法直接对节点操作系统进行升级,进而引发报错。如果需要继续升级,请参考以下步骤:

    1. 如果需要继续使用NPU资源,请参考集群版本与操作系统对应关系NPU卡与操作系统对应关系,选择合适的NPU机型和操作系统,具体购买流程请参见Lite Cluster使用流程
    2. 将问题节点中的相关业务迁移至1中购买的节点中,具体操作请参见节点排水
    3. 删除问题节点,重新进行集群升级。