- 最新动态
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- UCS集群
- 容器舰队
- 集群联邦
- 镜像仓库
- 权限管理
-
策略中心
- 策略中心概述
- 策略定义与策略实例的基本概念
- 启用策略中心
- 创建和管理策略实例
- 示例:使用策略中心实现Kubernetes资源合规性治理
-
使用策略定义库
- 策略定义库概述
- k8spspvolumetypes
- k8spspallowedusers
- k8spspselinuxv2
- k8spspseccomp
- k8spspreadonlyrootfilesystem
- k8spspprocmount
- k8spspprivilegedcontainer
- k8spsphostnetworkingports
- k8spsphostnamespace
- k8spsphostfilesystem
- k8spspfsgroup
- k8spspforbiddensysctls
- k8spspflexvolumes
- k8spspcapabilities
- k8spspapparmor
- k8spspallowprivilegeescalationcontainer
- k8srequiredprobes
- k8srequiredlabels
- k8srequiredannotations
- k8sreplicalimits
- noupdateserviceaccount
- k8simagedigests
- k8sexternalips
- k8sdisallowedtags
- k8sdisallowanonymous
- k8srequiredresources
- k8scontainerratios
- k8scontainerrequests
- k8scontainerlimits
- k8sblockwildcardingress
- k8sblocknodeport
- k8sblockloadbalancer
- k8sblockendpointeditdefaultrole
- k8spspautomountserviceaccounttokenpod
- k8sallowedrepos
- 配置管理
- 服务网格
- 流量分发
- 可观测性
- 云原生服务中心
- 容器迁移
- 流水线
- 错误码
- 最佳实践
- API参考
- 常见问题
- 文档下载
- 通用参考
链接复制成功!
本地集群接入失败怎么办?
问题描述
本文为集群接入的异常排查思路以及解决方案。集群接入UCS可能出现的异常情况如下:
- 在UCS控制台中注册集群后,已在集群中部署proxy-agent,但界面一直提示“等待接入”,或在接入超时后提示“注册失败”。
- 已接入的集群状态显示为“不可用”,请参考本文档中的排查思路解决。
排查思路
集群处于异常状态的排查思路大致可根据报错信息进行定位,如表1所示。
报错信息 |
说明 |
推荐排查项 |
---|---|---|
“currently no agents available, please make sure the agents are correctly registered” |
出现该错误的原因大概率为接入集群中的proxy-agent运行状态异常或网络异常。 |
|
“please check the health status of kube apiserver: ...” |
出现该错误的原因大概率为集群内部kube-apiserver无法访问。 |
|
“cluster responded with non-successful status code: ...” |
出现该错误的原因可能是多样的,请根据实际状态码进行排查。 例如状态码401表示用户没有访问权限,可能的原因是集群认证信息过期。 |
|
“cluster responded with non-successful message: ...” |
出现该错误的原因可能是多样的,请根据实际信息进行排查。 例如“Get "https://172.16.0.143:6443/readyz?timeout=32s\": context deadline exceeded”显示访问apiserver超时,可能是因为集群apiserver发生故障。 |
- |
“Current cluster version is not supported in UCS service.” |
出现该错误的原因是集群版本不符合要求:接入UCS服务的Kubernetes集群版本必须为1.19及以上。 |
- |
排查项一:proxy-agent的运行状态
集群从UCS注销后,原有proxy-agent配置文件中包含的认证信息将会失效,请同时删除集群中已部署的proxy-agent实例。如需再次接入UCS,必须重新从UCS控制台下载proxy-agent配置文件进行部署。
- 登录目标集群Master节点。
- 查看集群代理部署状态。
kubectl -n kube-system get pod | grep proxy-agent
如果部署成功,预期输出如下:
proxy-agent-*** 1/1 Running 0 9s
说明proxy-agent部署正常,如proxy-agent没有处于正常Running状态,可以使用kubectl -n kube-system describe pod proxy-agent-***查看Pod的告警信息,详细排查思路可参考proxy-agent部署失败怎么办?。
说明:
proxy-agent默认部署两个Pod实例,存在一个Pod正常Running即可使用基本功能,但是高可用性无法保证。
- 打印proxy-agent的Pod日志,查看代理程序是否可以连接到UCS。
kubectl -n kube-system logs proxy-agent-*** | grep "Start serving"
如没有“Start serving”的日志打印但是proxy-agent实例状态正常,则需要继续检查其他排查项。
排查项二:集群与UCS网络连接状态
公网接入:
- 检查集群是否绑定公网IP或配置公网NAT网关。
- 检查集群安全组的出方向是否放通。如需对出方向做访问控制,请联系技术支持获取目的地址和端口号。
- 解决网络问题后,删掉已有的proxy-agent Pod使其重新生成Pod资源,查看新建Pod的日志中是否存在“Start serving”的日志打印。
kubectl -n kube-system logs proxy-agent-*** | grep "Start serving"
- 日志正常打印后,刷新UCS控制台页面,查看集群是否正常连接。
私网接入:
- 检查集群安全组的出方向是否放通。如需对出方向做访问控制,请联系技术支持获取目的地址和端口号。
- 排除集群与UCS和IDC之间的网络连接故障。
- 排除集群私网接入的VPCEP故障,VPCEP状态需为“已接受”。如VPCEP被误删除,则需重新创建,请参见私网接入的集群误删除VPCEP后如何恢复?。
图1 VPCEP状态
- 解决网络问题后,删掉已有的proxy-agent Pod使其重新生成Pod资源,查看新建Pod的日志中是否存在“Start serving”的日志打印。
kubectl -n kube-system logs proxy-agent-*** | grep "Start serving"
- 日志正常打印后,刷新UCS控制台页面,查看集群是否正常连接。
排查项三:集群kube-apiserver状态
集群接入UCS时,可能出现如图2所示的异常信息,错误显示“please check the health status of kube apiserver: ...”。
如出现以上信息,说明proxy-agent无法和集群apiserver进行正常通信,由于不同用户待接入集群的网络环境配置不同,这里无法提供统一的解决方案,需要您自行解决集群网络问题后进行重试。
- 登录UCS控制台,在左侧导航栏选择“容器舰队”页面。
- 登录目标集群Master节点,检查proxy-agent的Pod是否可以访问待接入集群的apiserver。
参考命令:
kubectl exec -ti proxy-agent-*** -n kube-system /bin/bash # 访问集群的kube-apiserver curl -kv https://kubernetes.default.svc.cluster.local/readyz
如无法正常访问,请解决集群网络问题后,在UCS控制台重新注册集群,并重新部署proxy-agent。
排查项四:集群认证信息变化
如错误显示“cluster responded with non-successful status: [401][Unauthorized]”,通过观察集群三个Master节点“/var/paas/sys/log/kubernetes/auth-server.log”日志,可能是IAM网络连通故障。请确认IAM域名解析能力,及IAM服务连通性正常。
常见问题日志如下:
- Failed to authenticate token: *******: dial tcp: lookup iam.myhuaweicloud.com on *.*.*.*:53: no such host
此类日志说明,节点缺少对iam.myhuaweicloud.com解析能力,请参考安装前准备,配置对应的域名解析。
- Failed to authenticate token: Get *******: dial tcp *.*.*.*:443: i/o timeout
- currently only supports Agency token
- IAM assumed user has no authorization/iam assumed user should allowed by TEAdmin
- Failed to authenticate token: token expired, please acquire a new token
此类日志说明Token存在过期现象,请使用date命令确定时间是否差距过大,如果节点时间与标准时间差距过大,请同步时间后,查看集群是否恢复。如果长时间未恢复,可能需要重装集群,请联系华为技术人员进行排障。
解决上述问题后,请使用crictl ps | grep auth | awk '{print $1}' | xargs crictl stop命令重启auth-server容器。