升级前检查项
集群升级前系统将进行全面的升级前检查,当集群不满足升级前检查条件时将无法继续升级。为了能够更好地避免升级风险,本文提供全量的升级前检查项帮助您更好地避免可能存在的升级故障。
序号 |
检查项名称 |
检查项说明 |
---|---|---|
1 |
|
|
2 |
当前检查用户是否处于升级黑名单列表中。 |
|
3 |
|
|
4 |
检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 |
|
5 |
检查当前CCE是否能连接至您的Master节点。 |
|
6 |
检查节点池状态是否正常。 |
|
7 |
检查当前用户节点安全组是否允许Master节点使用ICMP协议访问节点。 |
|
8 |
|
|
9 |
检查节点是否需要迁移。 |
|
10 |
检查集群是否存在对应版本已经废弃的资源。 |
|
11 |
请您阅读版本兼容性差异,并确认不受影响。补丁升级不涉及版本兼容性差异。 |
|
12 |
检测当前节点的CCE包管理组件cce-agent是否为最新版本。 |
|
13 |
检查节点CPU使用情况,是否超过90%。 |
|
14 |
|
|
15 |
|
|
16 |
|
|
17 |
检查关键目录/var/paas下是否有异常属主和属组的文件。 |
|
18 |
检查节点kubelet服务是否运行正常。 |
|
19 |
检查节点内存使用情况,是否超过90%。 |
|
20 |
检查节点时钟同步服务器ntpd或chronyd是否运行正常。 |
|
21 |
检查节点操作系统内核版本是否为CCE支持的版本。 |
|
22 |
检查Master节点的CPU数量是否大于2核。 |
|
23 |
检查Node节点中Python命令是否可用。 |
|
24 |
|
|
25 |
检查集群内节点是否Ready。 |
|
26 |
检查节点上的journald状态是否正常。 |
|
27 |
检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 |
|
28 |
在升级前检查流程中是否出现内部错误。 |
|
29 |
检查节点上是否存在不可访问的挂载点。 |
|
30 |
检查节点上是否存在集群升级需要使用到的污点。 |
|
31 |
检查集群当前everest插件版本是否存在兼容性限制。 |
|
32 |
检查到目标cce-controller-hpa插件版本是否存在兼容性限制。 |
|
33 |
检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 |
|
34 |
检查用户节点的容器运行时组件和网络组件等是否健康。 |
|
35 |
检查控制节点的Kubernetes组件、容器运行时组件、网络组件等是否健康。 |
|
36 |
检查K8s组件例如etcd、kube-controller-manager等组件是否资源超出限制。 |
|
37 |
系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。
说明:
由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 |
|
38 |
检查节点上的NetworkManager状态是否正常。 |
|
39 |
检查节点的ID文件内容是否符合格式。 |
|
40 |
在升级CCE集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 |
|
41 |
检查节点上关键组件的配置文件是否存在。 |
|
42 |
检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 |