升级前检查项

集群升级前，系统将自动进行全面的升级前检查，当集群不满足升级前检查条件时将无法继续升级。为了能够更好地避免升级风险，本文提供全量的升级前检查问题及解决方案，帮助您对可能存在的升级故障进行预处理。

表1 检查项列表
序号	检查项名称	检查项说明
1	节点限制检查异常处理	检查节点是否可用检查节点操作系统是否支持升级检查节点是否含有非预期的节点池标签检查K8s节点名称是否与云服务器保持一致
2	升级管控检查异常处理	检查集群是否处于升级管控中。
3	插件检查异常处理	检查插件状态是否正常检查插件是否支持目标版本
4	Helm模板检查异常处理	检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API，可能导致升级后helm模板不可用。
5	节点池检查异常处理	检查节点池状态是否正常。
6	安全组检查异常处理	检查Node节点安全组规则中，协议端口为ICMP:全部，源地址为控制节点安全组的规则是否被删除。
7	残留待迁移节点检查异常处理	检查节点是否需要迁移。
8	K8s废弃资源检查异常处理	检查集群是否存在对应版本已经废弃的资源。
9	兼容性风险检查异常处理	请您阅读版本兼容性差异，并确认不受影响。补丁升级不涉及版本兼容性差异。
10	节点上CCE Agent版本检查异常处理	检测当前节点的CCE包管理组件cce-agent是否为最新版本。
11	节点CPU使用率检查异常处理	检查节点CPU使用量是否超过90%。
12	节点磁盘检查异常处理	检查节点关键数据盘使用量是否满足升级要求检查/tmp目录是否存在500MB可用空间
13	节点DNS检查异常处理	检查当前节点DNS配置是否能正常解析OBS地址检查当前节点是否能访问存储升级组件包的OBS地址
14	节点关键目录文件权限检查异常处理	检查根目录权限是否正确。
15	节点Kubelet检查异常处理	检查节点kubelet服务是否运行正常。
16	节点内存检查异常处理	检查节点内存使用量是否超过90%。
17	节点时钟同步服务器检查异常处理	检查节点时钟同步服务器ntpd或chronyd是否运行正常。
18	节点OS检查异常处理	检查节点操作系统内核版本是否为CCE支持的版本。
19	节点CPU数量检查异常处理	检查您的集群控制节点的CPU核心数量，要求控制节点的核心数量大于2核。
20	ASM网格版本检查异常处理	检查集群是否使用ASM网格服务检查当前ASM版本是否支持目标集群版本
21	节点Ready检查异常处理	检查集群内节点是否Ready。
22	节点journald检查异常处理	检查节点上的journald状态是否正常。
23	节点干扰ContainerdSock检查异常处理	检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。
24	内部错误异常处理	该检查非常规检查项，表示升级前检查流程中出现了内部错误。
25	节点挂载点检查异常处理	检查节点上是否存在不可访问的挂载点。
26	K8s节点污点检查异常处理	检查节点上是否存在集群升级需要使用到的污点。
27	everest插件版本限制检查异常处理	检查集群当前everest插件版本是否存在兼容性限制。
28	cce-hpa-controller插件限制检查异常处理	检查cce-controller-hpa插件的目标版本是否存在兼容性限制。
29	增强型CPU管理策略检查异常处理	检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。
30	用户节点组件健康检查异常处理	检查用户节点的容器运行时组件和网络组件等是否健康。
31	控制节点组件健康检查异常处理	检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件，要求在升级前以上组件运行正常。
32	K8s组件内存资源限制检查异常处理	检查K8s组件例如etcd、kube-controller-manager等组件是否资源超出限制。
33	K8s废弃API检查异常处理	系统会扫描过去一天的审计日志，检查用户是否调用目标K8s版本已废弃的API。说明：由于审计日志的时间范围有限，该检查项仅作为辅助手段，集群中可能已使用即将废弃的API，但未在过去一天的审计日志中体现，请您充分排查。
34	节点NetworkManager检查异常处理	检查节点上的NetworkManager状态是否正常。
35	节点ID文件检查异常处理	检查节点的ID文件内容是否符合格式。
36	节点配置一致性检查异常处理	在升级集群版本至v1.19及以上版本时，将对您的节点上的Kubernetes组件的配置进行检查，检查您是否后台修改过配置文件。
37	节点配置文件检查异常处理	检查节点上关键组件的配置文件是否存在。
38	CoreDNS配置一致性检查异常处理	检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异，差异的部分可能在插件升级时被覆盖，影响集群内部域名解析。
39	节点Sudo检查异常处理	检查当前节点sudo命令，sudo相关文件是否正常。
40	节点关键命令检查异常处理	检查节点升级依赖的一些关键命令是否能正常执行。
41	节点sock文件挂载检查异常处理	检查节点上的Pod是否直接挂载docker/containerd.sock文件。升级过程中Docker/Containerd将会重启，宿主机sock文件发生变化，但是容器内的sock文件不会随之变化，二者不匹配，导致您的业务无法访问Docker/Containerd。Pod重建后sock文件重新挂载，可恢复正常。
42	HTTPS类型负载均衡证书一致性检查异常处理	检查HTTPS类型负载均衡所使用的证书，是否在ELB服务侧被修改。
43	节点挂载检查异常处理	本文档提供了对节点挂载检查异常处理的排障指导，帮助用户解决在CCE节点中可能遇到的节点存储配置问题。
44	节点paas用户登录权限检查异常处理	检查paas用户是否有登录权限。
45	ELB IPv4私网地址检查异常处理	检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。
46	检查历史升级记录是否满足升级条件	检查集群的历史升级记录，要求您的集群原始版本满足升级到目标集群版本的条件。
47	检查集群管理平面网段是否与主干配置一致	检查集群管理平面网段是否与主干配置一致。
48	CCE AI套件（NVIDIA GPU）插件检查异常处理	检查到本次升级涉及CCE AI套件（NVIDIA GPU）插件，可能影响新建GPU节点时GPU驱动的安装。
49	节点系统参数检查异常处理	检查您节点上默认系统参数是否被修改。
50	残留packageversion检查异常处理	检查当前集群中是否存在残留的packageversion。
51	节点命令行检查异常处理	检查节点中是否存在升级所必须的命令。
52	节点交换区检查异常处理	检查集群节点上是否开启交换区。
53	NGINX Ingress控制器插件升级检查异常处理	检查NGINX Ingress控制器插件升级路径是否涉及兼容问题。
54	Containerd Pod重启风险检查异常处理	检查当前集群内使用containerd的节点在升级containerd组件时，节点上运行的业务容器是否可能发生重启，造成业务影响。
55	CCE AI套件（NVIDIA GPU）插件关键参数检查异常处理	检查CCE AI套件（NVIDIA GPU）插件中部分配置是否被侵入式修改，被侵入式修改的插件可能导致升级失败。
56	GPU/NPU Pod重建风险检查异常处理	检查当前集群升级重启kubelet时，节点上运行的GPU/NPU业务容器是否可能发生重建，造成业务影响。
57	ELB监听器访问控制配置项检查异常处理	若有配置访问控制则检查相关配置项是否正确。
58	控制节点子网配额检查异常处理	检查本次升级集群子网剩余可用IP数量是否支持滚动升级。
59	节点运行时检查异常处理	该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker，并计划在未来移除对docker的支持。
60	节点池运行时检查异常处理	该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker，并计划在未来移除对docker的支持。
61	检查节点镜像数量异常处理	检查到您的节点上镜像数量过多（>1000个），可能导致docker启动过慢，影响docker标准输出，影响nginx等功能的正常使用。
62	OpenKruise插件兼容性检查异常处理	检查集群升级时，OpenKruise插件是否存在兼容性问题。
63	Secret落盘加密特性兼容性检查异常处理	检查本次升级的目标版本是否支持Secret落盘加密特性，若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。
64	Ubuntu内核与GPU驱动兼容性提醒	检查到集群中同时使用CCE AI套件（NVIDIA GPU）插件和Ubuntu节点，提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时，GPU插件必须使用535.161.08及以上的驱动版本。
65	排水任务检查异常处理	检查到集群中存在未完成的排水任务，此时升级可能会导致升级完成后触发排水动作，将运行中的Pod进行驱逐。
66	节点镜像层数量异常检查	检查到您的节点上镜像层数量过多（>5000层），可能导致docker/containerd启动过慢，影响docker/containerd标准输出。
67	检查集群是否满足滚动升级条件	检查到您的集群暂时不满足滚动升级条件。
68	轮转证书文件数量检查	检查您节点上的证书数量过多（>1000），由于升级过程中会批量处理证书文件，证书文件过多可能导致节点升级过慢，节点上Pod被驱逐等。
69	Ingress与ELB配置一致性检查	检查到您集群中Ingress配置与ELB配置不一致，请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。
70	集群网络组件的NetworkPolicy开关检查	检查您集群网络组件的NetworkPolicy开关配置，如果您在集群控制节点上对NetworkPolicy开关进行过手动修改，那么升级过程中该配置会被刷新成默认值。
71	集群与节点池配置管理检查	检查当前集群中网络组件配置（eni）中节点预热容器网卡回收阈值（nic-max-above-warm-target）是否超过允许设置的最大值。
72	控制节点时区检查	检查到您集群中控制节点实际时区与集群时区不一致，滚动升级后控制节点上的时区会变为集群时区。
73	SnatIPRanges升级后变化检查	检查SnatIPRanges在升级前后是否发生变化。仅CCE Turbo集群涉及。
74	插件配置一致性校验	如果您未通过CCE控制台的“插件中心”或更新插件API修改配置，而是直接修改插件的配置参数（一般是ConfigMap），则在插件升级时，这些手动修改的配置可能会被覆盖，从而影响业务运行。