更新时间:2024-10-23 GMT+08:00
CCE集群中域名解析失败
问题现象
CCE集群中域名解析失败。
排查思路
以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。
如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。
图1 域名解析失败排查思路
当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。
- 集群内域名:
- 确认coredns插件是否安装,coredns服务是否正常运行。
- 其他Pod到coredns的Pod网络是否正常,其他Pod到coredns的服务是否网络正常,如网络不正常:
- 安全组是否正常
- ACL是否正常
- 是否跨界点Pod网络是否正常,如果跨节点Pod网络不通则需要确认以下问题是否存在:
- 修改了节点内核
- 安全组和ACL策略未放通
- VPC路由表是否正常
- 节点上的iptables规则是否正常
- 内核其他参数
- 非标网段(CCE不推荐使用非标网段,使用非标网段可能引入集群网络不通等风险)
- 集群外域名:
- 确定是否为自建DNS(容器如果未走coredns或者节点DNS非本region云解析的地址均属自建)
- coredns到自建DNS网络是否正常,工作负载到自建DNS的网络是否正常,如不正常:
- 请打通到自建DNS网络
- 请确保DNS的UDP53端口放行,需要对Pod网段安全组&ACL放通如下策略:
- 节点网段到节点网段
- 节点网段到容器网段
- 容器网段到节点网段
- 容器网段到容器网段