Redis连接失败问题排查和解决
概述
本章节主要描述Redis连接过程出现的问题,以及解决方法。
问题分类
当您发现与Redis实例连接出现异常时,可以根据本文的内容,从以下几个方面进行排查。
Redis和ECS之间的连接问题
客户端所在的ECS必须和Redis实例在同一个VPC内,并且需要确保ECS和Redis之间可以正常连接。
- 如果是Redis 3.0或企业版实例,Redis和ECS的安全组没有配置正确,连接失败。
解决方法:配置ECS和Redis实例所在安全组规则,允许Redis实例被访问。具体配置,可以参考配置安全组。
- 如果是Redis 4.0/5.0/6.0基础版实例,开启了白名单功能,连接失败。
如果实例开启了白名单,在使用客户端连接时,需要确保客户端IP是否在白名单内,如果不在白名单,会出现连接失败。具体配置操作,可以参考配置白名单。客户端IP如果有变化,需要将变化后的IP加入白名单。
- Redis实例和ECS不在同一个Region。
解决方法:不支持跨Region访问,可以在ECS所在的Region创建Redis实例,创建时注意选择与ECS相同VPC,创建之后,使用数据迁移进行迁移,将原有Redis实例数据迁移到新实例中。
- Redis实例和ECS不在同一个VPC。
不同的VPC,网络是不相通的,不在同一VPC下的ECS是无法访问Redis实例。可以通过创建VPC对等连接,将两个VPC的网络打通,实现跨VPC访问Redis实例。
关于创建和使用VPC对等连接,请参考VPC对等连接说明。
公网连接Redis (仅Redis 3.0涉及)
在进行公网访问时,请先仔细阅读公网连接章节,检查实例是否满足公网访问的要求。
- 连接时提示:Error: Connection reset by peer或者出现:远程主机强迫关闭一个现有的连接。
- 原因1:安全组没有配置正确。
解决方法:需要允许Redis实例被访问,具体配置操作和公网连接操作,请按照公网连接章节中的操作进行。
- 原因2:查看Redis所在vpc子网是否被ACL关联,同时这个ACL出方向被限制了。若是,放开限制。
- 原因3:开启了SSL加密传输,连接时没有安装配置Stunnel,直接使用了界面提示的IP地址进行连接。
解决方法:开启SSL加密时,必须安装配置Stunnel客户端,具体操作,请按照公网连接Redis实例(开启SSL加密)执行。其中,请注意,在连接Redis实例命令中,IP地址需要配置为Stunnel客户端地址和端口,不要使用控制台展示的Redis实例公网连接地址和端口。
- 原因1:安全组没有配置正确。
- 已经开启了公网访问的Redis实例,公网访问被关闭了,无法使用公网访问。
原因:该Redis实例绑定的弹性公网IP被解绑,导致Redis实例公网被关闭。
解决方法:在控制台重新开启实例的公网访问,绑定弹性公网IP,并重新连接。
客户端连接问题
- 在使用Redis-cli连接Cluster集群时,连接失败。
具体连接操作,请参考Redis-cli连接。
- 出现Read timed out或Could not get a resource from the pool。
- 排查是否使用了keys命令,keys命令会消耗大量资源,造成Redis阻塞。建议使用scan命令替代,且避免频繁执行。
- 排查实例是否是Redis 3.0,Redis 3.0底层用的是sata盘,当Redis数据持久化即AOF时,会触发偶现的磁盘性能问题,导致连接异常,可更换Redis实例为4.0及以上版本,其底层是ssd盘,磁盘性能更高,或若不需要持久化可关闭AOF。
- 出现unexpected end of stream错误,导致业务异常。
- Jedis连接池调优,建议参考Jedis参数配置建议进行配置连接池参数。
- 排查是否大key较多,建议根据优化大key排查优化。
- 连接断开。
- 调整应用超时时间。
- 优化业务,避免出现慢查询。
- 建议使用scan命令替代keys命令。
- Jedis连接池问题,请参考使用Jedis连接池报错如何处理?。
带宽超限导致连接问题
当实例已使用带宽达到实例规格最大带宽,可能会导致部分Redis连接超时现象。
您可以查看监控指标“流控次数”,统计周期内被流控的次数,确认带宽是否已经达到上限。
然后,检查实例是否有大Key和热Key,如果存在大Key或者单个Key负载过大,容易造成对于单个Key的操作占用带宽资源过高。大Key和热Key操作,请参考分析实例大Key和热Key。
Redis 4.0及之后版本的实例,支持通过控制台对Redis实例进行带宽扩容,可用于解决带宽超限的问题。
性能问题导致连接超时
使用了keys等消耗资源的命令,导致CPU使用率超高;或者实例没有设置过期时间、没有清除已过期的Key,导致存储的数据过多,一直在内存中,内存使用率过高等,这些都容易出现访问缓慢、连接不上等情况。
- 建议客户改成scan命令或者禁用keys命令。
- 查看监控指标,并配置对应的告警。监控项和配置告警步骤,可查看必须配置的监控告警。
例如,可以通过监控指标“内存利用率”和“已用内存”查看实例内存使用情况、“活跃的客户端数量”查看实例连接数是否达到上限等。
- 检查实例是否存在大Key和热Key。
DCS控制台提供了大Key和热Key的分析功能,具体使用,请参考分析Redis实例的大Key和热Key。