IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时
故障现象
在集群使用IPVS转发的场景下,节点上升级CoreDNS后,可能出现概率性丢包,导致域名解析失败。
问题根因
该问题由IPVS缺陷导致,社区已在IPVS v5.9-rc1版本中修复该问题,详情请参见ipvs: queue delayed work to expire no destination connections if expire_nodest_conn=1。
使用Ubuntu 22.04或Huawei Cloud EulerOS 2.0操作系统的节点上不存在此问题,CentOS/Ubuntu18.04/EulerOS 2.5/EulerOS 2.9(低版本内核)/Huawei Cloud EulerOS 1.1操作系统则存在此问题。
解决方法
- 考虑采用NodeLocal DNSCache缓存方案,可以容忍IPVS丢包,具体操作请参见使用NodeLocal DNSCache提升DNS性能。
- 使用不受影响的操作系统,如Huawei Cloud EulerOS 2.0、Ubuntu 22.04。
- 当您的节点操作系统为EulerOS 2.9时,请确认节点内核版本是否满足以下要求。如节点内核版本过低,可通过重置节点进行修复;如节点内核已满足以下要求,则不存在上述问题,无需进行修复。
- X86节点:内核版本为4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64及以上
- ARM节点:内核版本为4.19.90-vhulk2103.1.0.h990.eulerosv2r9.aarch64及以上