更新时间:2024-10-23 GMT+08:00
分享

CCE集群中域名解析失败

问题现象

CCE集群中域名解析失败。

排查思路

以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。

如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。

图1 域名解析失败排查思路

当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。

  • 集群内域名:
    1. 确认coredns插件是否安装,coredns服务是否正常运行。
    2. 其他Pod到coredns的Pod网络是否正常,其他Pod到coredns的服务是否网络正常,如网络不正常:
      1. 安全组是否正常
      2. ACL是否正常
      3. 是否跨界点Pod网络是否正常,如果跨节点Pod网络不通则需要确认以下问题是否存在:
        1. 修改了节点内核
        2. 安全组和ACL策略未放通
        3. VPC路由表是否正常
        4. 节点上的iptables规则是否正常
        5. 内核其他参数
        6. 非标网段(CCE不推荐使用非标网段,使用非标网段可能引入集群网络不通等风险)
  • 集群外域名:
    1. 确定是否为自建DNS(容器如果未走coredns或者节点DNS非本region云解析的地址均属自建)
    2. coredns到自建DNS网络是否正常,工作负载到自建DNS的网络是否正常,如不正常:
      1. 请打通到自建DNS网络
      2. 请确保DNS的UDP53端口放行,需要对Pod网段安全组&ACL放通如下策略:
        • 节点网段到节点网段
        • 节点网段到容器网段
        • 容器网段到节点网段
        • 容器网段到容器网段

相关文档