Redis连接失败问题排查和解决
概述
本章节主要描述Redis连接过程出现的问题,以及解决方法。
问题分类
当您发现与Redis实例连接出现异常时,可以根据本文的内容,从以下几个方面进行排查。
Redis和ECS之间的连接问题
客户端所在的ECS必须和Redis实例在同一个VPC内,并且需要确保ECS和Redis之间可以正常连接。
- 如果是Redis 3.0实例,Redis和ECS的安全组没有配置正确,连接失败。
解决方法:配置ECS和Redis实例所在安全组规则,允许Redis实例被访问。具体配置,可以参考安全组配置和选择。
- 如果是Redis 4.0/5.0/6.0实例,开启了白名单功能,连接失败。
如果实例开启了白名单,在使用客户端连接时,需要确保客户端IP是否在白名单内,如果不在白名单,会出现连接失败。具体配置操作,可以参考配置实例白名单。客户端IP如果有变化,需要将变化后的IP加入白名单。
- Redis实例和ECS不在同一个Region。
解决方法:不支持跨Region访问,可以在ECS所在的Region创建Redis实例,创建时注意选择与ECS相同VPC,创建之后,使用数据迁移进行迁移,将原有Redis实例数据迁移到新实例中。
- Redis实例和ECS不在同一个VPC。
不同的VPC,网络是不相通的,不在同一VPC下的ECS无法访问Redis实例。可以通过创建VPC对等连接,将两个VPC的网络打通,实现跨VPC访问Redis实例。
关于创建和使用VPC对等连接,请参考《虚拟私有云用户指南》的“对等连接”文档说明。
客户端连接问题
- 在使用Redis-cli连接Cluster集群时,连接失败。
具体连接操作,请参考Redis-cli连接。
- 出现Read timed out或Could not get a resource from the pool。
- 排查是否使用了keys命令,keys命令会消耗大量资源,造成Redis阻塞。建议使用scan命令替代,且避免频繁执行。
- 排查实例是否是Redis 3.0,Redis 3.0底层用的是sata盘,当Redis数据持久化即AOF时,会触发偶现的磁盘性能问题,导致连接异常,可更换Redis实例为4.0 和5.0版本,其底层是ssd盘,磁盘性能更高,或若不需要持久化可关闭AOF。
- 出现unexpected end of stream错误,导致业务异常。
- Jedis连接池调优,建议参考Jedis参数配置建议进行配置连接池参数。
- 排查是否大key较多,建议根据优化大key排查优化。
- 连接断开。
- 调整应用超时时间。
- 优化业务,避免出现慢查询。
- 建议使用scan命令替代keys命令。
- Jedis连接池问题,请参考使用Jedis连接池报错如何处理?。
带宽超限导致连接问题
当实例已使用带宽达到实例规格最大带宽,可能会导致部分Redis连接超时现象。
您可以查看监控指标“流控次数”,统计周期内被流控的次数,确认带宽是否已经达到上限。
然后,检查实例是否有大Key和热Key,如果存在大Key或者单个Key负载过大,容易造成对于单个Key的操作占用带宽资源过高。大Key和热Key操作,请参考缓存分析。