更新时间:2024-06-21 GMT+08:00
CCE集群中域名解析失败
问题现象
CCE集群中域名解析失败。
排查思路
以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。
如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。
图1 域名解析失败排查思路
![点击放大](https://support.huaweicloud.com/cce_faq/zh-cn_image_0000001595979548.png)
当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。
- 集群内域名:
- 确认coredns插件是否安装,coredns服务是否正常运行。
- 其他Pod到coredns的Pod网络是否正常,其他Pod到coredns的服务是否网络正常,如网络不正常:
- 安全组是否正常
- ACL是否正常
- 是否跨界点Pod网络是否正常,如果跨节点Pod网络不通则需要确认以下问题是否存在:
- 修改了节点内核
- 安全组和ACL策略未放通
- VPC路由表是否正常
- 节点上的iptables规则是否正常
- 内核其他参数
- 非标网段(CCE不推荐使用非标网段,使用非标网段可能引入集群网络不通等风险)
- 集群外域名:
- 确定是否为自建DNS(容器如果未走coredns或者节点DNS非本region云解析的地址均属自建)
- coredns到自建DNS网络是否正常,工作负载到自建DNS的网络是否正常,如不正常:
- 请打通到自建DNS网络
- 请确保DNS的UDP53端口放行,需要对Pod网段安全组&ACL放通如下策略:
- 节点网段到节点网段
- 节点网段到容器网段
- 容器网段到节点网段
- 容器网段到容器网段
网络异常 所有常见问题
- 工作负载网络异常时,如何定位排查?
- 集群内部无法使用ELB地址访问负载
- 集群外部访问Ingress异常
- CCE集群中域名解析失败
- 为什么访问部署的应用时浏览器返回404错误码?
- 为什么容器无法连接互联网?
- VPC的子网无法删除,怎么办?
- 如何修复出现故障的容器网卡?
- 节点无法连接互联网(公网),如何排查定位?
- 如何解决VPC网段与容器网络冲突的问题?
- ELB四层健康检查导致java报错:Connection reset by peer
- Service事件:Have no node to bind,如何排查?
- 为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently?
- 集群节点使用networkpolicy概率性出现panic问题
- 节点远程登录界面(VNC)打印较多source ip_type日志问题
- 使用IE浏览器访问nginx-ingress出现重定向308无法访问
- NGINX Ingress控制器插件升级导致集群内Nginx类型的Ingress路由访问异常
- 负载均衡型Service更新出现错误:Quota exceeded for resources: members_per_pool
more