文档首页/ 企业主机安全 HSS/ 常见问题/ 容器安全/ 集群连接组件(ANP-Agent)部署失败
更新时间:2024-11-15 GMT+08:00

集群连接组件(ANP-Agent)部署失败

集群连接组件(ANP-Agent)安装失败

问题现象

在接入第三方云集群或自建集群过程中,执行以下命令查看集群连接组件(ANP-Agent)安装状态。
kubectl get pods -n hss | grep proxy-agent
界面回显如下所示,表示集群连接组件(ANP-Agent)安装失败。
proxy-agent-5dc5cf6cd7-khdlt   0/1     ImagePullBackOff     0          42h 
proxy-agent-5dc5cf6cd7-n56bx   0/1     Pending              0          42h

解决办法

  1. 登录集群任一节点。
  2. 执行以下命令,查看节点信息。

    kubectl describe pod proxy-agent-xxx -n hss

    其中proxy-agent-xxx为“问题现象”中回显的集群连接组件名称,例如:proxy-agent-5dc5cf6cd7-khdlt。

  3. 根据界面回显确认问题原因。

    • 可能原因:无法拉取集群连接组件的镜像。
      图1 无法拉取集群连接组件的镜像

      解决办法:如果接入模式选择的是“非CCE集群(公网接入)”,请确保您的集群具备访问公网的能力(即可正常拉取SWR镜像);如果您的集群无法访问公网,请使用“非CCE集群(私网接入)”,详细操作非CCE集群接入HSS(私网)

    • 可能原因:节点的CPU或内存资源不足,显示Insufficient cpu/memory。
      图2 节点的CPU或内存资源不足

      解决办法:请扩容节点资源后,再执行接入操作。

    • 可能原因:没有符合调度规则的节点。
      图3 没有符合调度规则的节点

      解决办法:集群连接组件(ANP-Agent)为保证高可用性,默认将两个实例调度到不同的节点上,请确保集群中至少存在两个可用节点。

集群连接组件(ANP-Agent)连接失败

问题现象

在接入第三方云集群或自建集群过程中,执行以下命令查看集群连接组件(ANP-Agent)连接状态。
for a in $(kubectl get pods -n hss| grep proxy-agent | cut -d ' ' -f1); do kubectl -n hss logs $a | grep 'Start serving';done

界面回显为“空”,表示集群和HSS连接失败。

解决办法

  1. 登录集群任一节点。
  2. 执行以下命令,查看节点日志。

    kubectl logs proxy-agent-xxx -n hss

  3. 界面回显如图 连接建立失败所示,表示集群连接组件端到HSS server端的grpc连接建立失败。

    图4 连接建立失败

  4. 请按以下步骤排查并解决问题。

    集群连接组件的服务器域名示例:hss-anp.区域代码.myhuaweicloud.com。

    各区域代码请参见地区和终端节点

    1. 检查集群安全组的出方向是否允许访问100.125.0.0/16网段的8091端口。
      • 允许访问:请继续执行步骤4.b
      • 拒绝访问:请设置安全组出方向允许访问该端口,再重试接入集群资产。
    2. 执行以下命令,检查能否ping通集群连接组件的服务器域名。
      ping {{集群连接组件的服务器域名}}
      • 能ping通:请继续执行步骤4.c
      • 不能ping通:请配置DNS地址为华为云内网DNS地址,华为云各区域的内网DNS地址请参见华为云内网DNS地址。配置完成后,重试接入集群资产。
    3. 执行以下命令,检查能否访问集群连接组件的服务器的指定端口。
      telnet {{集群连接组件的服务器域名}} 8091
      • 能访问:请继续执行步骤4.d
      • 不能访问:请关闭防火墙后,重试接入集群资产。
    4. 请您在华为云管理控制台的右上角,单击“工单 > 新建工单”,通过工单向技术人员寻求帮助。