集群连接组件(ANP-Agent)部署失败
集群连接组件(ANP-Agent)安装失败
问题现象
kubectl get pods -n hss | grep proxy-agent
proxy-agent-5dc5cf6cd7-khdlt 0/1 ImagePullBackOff 0 42h proxy-agent-5dc5cf6cd7-n56bx 0/1 Pending 0 42h
解决办法
- 登录集群任一节点。
- 执行以下命令,查看节点信息。
kubectl describe pod proxy-agent-xxx -n hss
其中proxy-agent-xxx为“问题现象”中回显的集群连接组件名称,例如:proxy-agent-5dc5cf6cd7-khdlt。
- 根据界面回显确认问题原因。
- 可能原因:无法拉取集群连接组件的镜像。
图1 无法拉取集群连接组件的镜像
解决办法:如果接入模式选择的是“非CCE集群(公网接入)”,请确保您的集群具备访问公网的能力(即可正常拉取SWR镜像);如果您的集群无法访问公网,请使用“非CCE集群(私网接入)”,详细操作非CCE集群接入HSS(私网)。
- 可能原因:节点的CPU或内存资源不足,显示Insufficient cpu/memory。
图2 节点的CPU或内存资源不足
解决办法:请扩容节点资源后,再执行接入操作。
- 可能原因:没有符合调度规则的节点。
图3 没有符合调度规则的节点
解决办法:集群连接组件(ANP-Agent)为保证高可用性,默认将两个实例调度到不同的节点上,请确保集群中至少存在两个可用节点。
- 可能原因:无法拉取集群连接组件的镜像。
集群连接组件(ANP-Agent)连接失败
问题现象
for a in $(kubectl get pods -n hss| grep proxy-agent | cut -d ' ' -f1); do kubectl -n hss logs $a | grep 'Start serving';done
界面回显为“空”,表示集群和HSS连接失败。
解决办法
- 登录集群任一节点。
- 执行以下命令,查看节点日志。
kubectl logs proxy-agent-xxx -n hss
- 界面回显如图 连接建立失败所示,表示集群连接组件端到HSS server端的grpc连接建立失败。
- 请按以下步骤排查并解决问题。
集群连接组件的服务器域名示例:hss-anp.区域代码.myhuaweicloud.com。
各区域代码请参见地区和终端节点。
- 检查集群安全组的出方向是否允许访问100.125.0.0/16网段的8091端口。
- 允许访问:请继续执行步骤4.b。
- 拒绝访问:请设置安全组出方向允许访问该端口,再重试接入集群资产。
- 执行以下命令,检查能否ping通集群连接组件的服务器域名。
ping {{集群连接组件的服务器域名}}
- 能ping通:请继续执行步骤4.c。
- 不能ping通:请配置DNS地址为华为云内网DNS地址,华为云各区域的内网DNS地址请参见华为云内网DNS地址。配置完成后,重试接入集群资产。
- 执行以下命令,检查能否访问集群连接组件的服务器的指定端口。
telnet {{集群连接组件的服务器域名}} 8091
- 能访问:请继续执行步骤4.d。
- 不能访问:请关闭防火墙后,重试接入集群资产。
- 请您在华为云管理控制台的右上角,单击“工单 > 新建工单”,通过工单向技术人员寻求帮助。
- 检查集群安全组的出方向是否允许访问100.125.0.0/16网段的8091端口。