当集群状态为“不可用”时,如何排查解决?
当集群状态显示为“不可用”时,请参照如下方式来排查解决。
排查思路
以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。
如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。
如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。
排查项一:安全组是否被修改
- 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群控制节点的安全组。
控制节点安全组名称为:集群名称-cce-control-编号。
- 单击安全组名称,进入详情页面,请确保集群控制节点的安全组规则的正确性。
安全组的详细说明请参见如何修改集群安全组规则配置。
排查项二:集群是否过载
问题现象
集群Master节点的使用率达到100%。
问题根因
在集群中同时创建大量资源,apiserver压力过大,导致Master节点过载出现OOM。
解决方案
您可以扩容集群管理规模,集群管理规模越大,控制节点规格越高、性能也更佳。操作详情请参见变更集群规格。
如果您出现以上集群过载的情况,您也可以提交工单以获取技术支持。
排查项三:集群Secret落盘加密使用的KMS密钥是否有效
问题现象
当出现集群不可用,您可以查看集群事件确认异常原因。

当集群事件中存在“KMS密钥状态异常”时,您需要确认该集群对应的使用的密钥状态是否被设置为“禁用”或“计划删除”。

解决方案
- 登录密码安全中心 DEW控制台。
- 在自定义密钥列表中,找到集群使用的KMS密钥。
- “计划删除”状态的密钥:单击操作列中的“取消删除”。如果密钥取消删除后,仍处于“禁用”状态,则还需取消禁用。
- “禁用”状态的密钥:单击操作列中的“启用”。
- 密钥重新为“启用”状态后,集群将在大约在5-10分钟内自动恢复。
排查项四:集群证书是否生效
问题现象
当集群所在地区需要夏令时与冬令时转换时,在夏令时与冬令时的重叠时间,例如在凌晨2点申请创建集群,转变为冬令时后,时间变为凌晨1点,可能导致集群不可用。
问题根因
集群内证书的生效时间在未来,而不是当前时间,在证书未生效时,会导致集群受到影响。k8s的各个组件使用证书访问kube-apiserver,kube-apiserver会对请求的证书验证,如果验证不通过会拒绝请求。
解决方案
- 删除集群重新创建。
- 等待证书生效时间到达,集群会自动变成可用状态。
- 提交工单联系运维人员恢复。
排查项四:删除集群失败,集群状态变为“错误”
问题现象
当删除集群失败后,集群状态变为“错误”,提示“集群状态异常,集群功能无法正常使用”。
问题根因
您可以查看错误信息,确认问题原因,例如周边服务不可用导致任务执行失败等。
解决方案
- 重试删除集群。
- 如果删除依然失败,请提交工单联系运维人员处理。