更新时间:2024-07-29 GMT+08:00

Redis连接失败问题排查和解决

概述

本章节主要描述Redis连接过程出现的问题,以及解决方法。

问题分类

当您发现与Redis实例连接出现异常时,可以根据本文的内容,从以下几个方面进行排查。

Redis和ECS之间的连接问题

客户端所在的ECS必须和Redis实例在同一个VPC内,并且需要确保ECS和Redis之间可以正常连接。

  • 如果是Redis 3.0实例,Redis和ECS的安全组没有配置正确,连接失败。

    解决方法:配置ECS和Redis实例所在安全组规则,允许Redis实例被访问。具体配置,可以参考安全组配置和选择

  • 如果是Redis 4.0/5.0/6.0实例,开启了白名单功能,连接失败。

    如果实例开启了白名单,在使用客户端连接时,需要确保客户端IP是否在白名单内,如果不在白名单,会出现连接失败。具体配置操作,可以参考配置实例白名单。客户端IP如果有变化,需要将变化后的IP加入白名单。

  • Redis实例和ECS不在同一个Region。

    解决方法:不支持跨Region访问,可以在ECS所在的Region创建Redis实例,创建时注意选择与ECS相同VPC,创建之后,使用数据迁移进行迁移,将原有Redis实例数据迁移到新实例中。

  • Redis实例和ECS不在同一个VPC。

    不同的VPC,网络是不相通的,不在同一VPC下的ECS无法访问Redis实例。可以通过创建VPC对等连接,将两个VPC的网络打通,实现跨VPC访问Redis实例

    关于创建和使用VPC对等连接,请参考《虚拟私有云用户指南》的“对等连接”文档说明。

密码问题

密码输入错误时,端口可以连接上,但鉴权认证会失败。如果忘记了密码,可以重置缓存实例密码

实例配置问题

连接Redis时存在拒绝连接,可登录分布式缓存服务控制台,进入实例详情页面,调整实例参数maxclients的配置,具体操作可参考修改实例配置参数

客户端连接问题

  • 在使用Redis-cli连接Cluster集群时,连接失败。
    解决方法:请检查连接命令是否加上-c,在连接Cluster集群节点时务必使用正确连接命令。
    • Cluster集群连接命令:

      ./redis-cli -h {dcs_instance_address} -p 6379 -a {password} -c

    • 单机、主备、Proxy集群连接命令:

      ./redis-cli -h {dcs_instance_address} -p 6379 -a {password}

    具体连接操作,请参考Redis-cli连接

  • 出现Read timed out或Could not get a resource from the pool。

    解决方法:

    • 排查是否使用了keys命令,keys命令会消耗大量资源,造成Redis阻塞。建议使用scan命令替代,且避免频繁执行。
    • 排查实例是否是Redis 3.0,Redis 3.0底层用的是sata盘,当Redis数据持久化即AOF时,会触发偶现的磁盘性能问题,导致连接异常,可更换Redis实例为4.0 和5.0版本,其底层是ssd盘,磁盘性能更高,或若不需要持久化可关闭AOF。
  • 出现unexpected end of stream错误,导致业务异常。

    解决方法:

  • 连接断开。

    解决方法:

    • 调整应用超时时间。
    • 优化业务,避免出现慢查询。
    • 建议使用scan命令替代keys命令。
  • Jedis连接池问题,请参考使用Jedis连接池报错如何处理?

带宽超限导致连接问题

当实例已使用带宽达到实例规格最大带宽,可能会导致部分Redis连接超时现象。

您可以查看监控指标“流控次数”,统计周期内被流控的次数,确认带宽是否已经达到上限。

然后,检查实例是否有大Key和热Key,如果存在大Key或者单个Key负载过大,容易造成对于单个Key的操作占用带宽资源过高。大Key和热Key操作,请参考缓存分析

性能问题导致连接超时

使用了keys等消耗资源的命令,导致CPU使用率超高;或者实例没有设置过期时间、没有清除已过期的Key,导致存储的数据过多,一直在内存中,内存使用率过高等,这些都容易出现访问缓慢、连接不上等情况。

  • 建议客户改成scan命令或者禁用keys命令。
  • 查看监控指标,并配置对应的告警。监控项和配置告警步骤,可查看必须配置的告警监控

    例如,可以通过监控指标“内存利用率”和“已用内存”查看实例内存使用情况、“活跃的客户端数量”查看实例连接数是否达到上限等。

  • 检查实例是否存在大Key和热Key。

    DCS控制台提供了大Key和热Key的分析功能,具体使用,请参考缓存分析