集群可用但节点状态为“不可用”如何解决？

当集群状态为“可用”，而集群中部分节点状态为“不可用”时，请参照如下方式来排查解决。

Kubernetes 节点发送的心跳确定每个节点的可用性，并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。

以下排查思路根据原因的出现概率进行排序，建议您从高频率原因往低频率原因排查，从而帮助您快速找到问题的原因。

如果解决完某个可能原因仍未解决问题，请继续排查其他可能原因。

问题描述：

集群中节点连接异常，多个节点报写入错误，业务未受影响。

问题定位：

登录CCE控制台，进入集群，在不可用节点所在行单击“监控”。
单击“监控”页签顶部的“查看更多”，前往运维管理页面查看历史监控记录。

当节点cpu和内存负载过高时，会导致节点网络时延过高，或系统OOM，最终展示为不可用。

解决方案：

节点恢复为可用后，工作负载即可恢复正常。

确认集群是否可用。

登录CCE控制台，确定集群是否可用。
- 若集群非可用状态，如错误等，请参见当集群状态为“不可用”时，如何排查解决？。
- 若集群状态为“运行中”，而集群中部分节点状态为“不可用”，请执行2。
登录ECS控制台，查看对应的弹性云服务器状态。
- 若弹性云服务器状态为“已删除”：请在CCE中删除对应节点，再重新创建节点。
- 若弹性云服务器状态为“关机”或“冻结”：请先恢复弹性云服务器，约3分钟后集群节点可自行恢复。
- 若弹性云服务器出现故障：请先重启弹性云服务器，恢复故障。
- 若弹性云服务器状态为“可用”：请参考排查项七：内部组件是否正常登录弹性云服务器进行本地故障排查。

登录ECS控制台。
确认界面显示的节点名称与虚机内的节点名称是否一致，并且密码或者密钥能否登录。

如果节点名称不一致，并且密码和密钥均不能登录，说明是ECS创建虚机时的cloudinit初始化问题，临时规避可以尝试重启节点，之后再提单给ECS确认问题根因。

登录VPC控制台，在左侧栏目树中单击“访问控制 > 安全组”，找到集群控制节点的安全组。

控制节点安全组名称为：集群名称-cce-control-编号。您可以通过集群名称查找安全组，再进一步在名称中区分“-cce-control-”字样，即为本集群安全组。

排查安全组中规则是否被修改，关于安全组的详细说明请参见集群安全组规则配置。

请检查安全组规则中是否包含Master和Node互通的安全组策略。

已有集群添加节点时，如果子网对应的VPC新增了扩展网段且子网是扩展网段，要在控制节点安全组（即集群名称-cce-control-随机数）中添加如下三条安全组规则，以保证集群添加的节点功能可用（新建集群时如果VPC已经新增了扩展网段则不涉及此场景）。

关于安全组的详细说明请参见集群安全组规则配置。

新建节点会给节点绑定一个100G的docker专用数据盘。若数据盘卸载或损坏，会导致docker服务异常，最终导致节点不可用。

请检查节点挂载的数据盘是否已被卸载。若已卸载请重新挂载数据盘，再重启节点，节点可恢复。

登录节点，在日志/var/log/cloud-init-output.log中查看是否有域名解析失败相关的报错。

cat /var/log/cloud-init-output.log | grep resolv

如果回显包含如下内容则说明无法解析该域名。

Could not resolve host: Unknown error
在节点上ping上一步无法解析的域名，确认节点上能否解析此域名。
- 如果不能，则说明DNS无法解析该地址。请确认/etc/resolv.conf文件中的DNS地址与配置在VPC的子网上的DNS地址是否一致，通常是由于此DNS地址配置错误，导致无法解析此域名。请修改VPC子网DNS为正确配置，然后重置节点。
- 如果能，则说明DNS地址配置没有问题，请排查其他问题。

如果节点中的vdb盘被删除，可参考此章节内容恢复节点。

执行以下命令确认docker服务是否正在运行：
```
systemctl status docker
```
若执行失败或服务状态非active，请确认docker运行失败原因，必要时可提交工单联系技术支持。
执行以下命令检查当前节点上所有容器数量：
```
docker ps -a | wc -l
```
若命令卡死、执行时间过长或异常容器数过多（1000以上），请确认外部是否存在重复不断地创删负载现象，在大量容器频繁创删过程中有可能出现大量异常容器且难以及时清理。

在此场景下可考虑停止重复创删负载或采用更多的节点去分摊负载，一般等待一段时间后节点会恢复正常，必要情况可执行docker rm {container_id}手动清理异常容器。