问题分类
当您发现与Redis实例连接出现异常时,可以根据本文的内容,从以下几个方面进行排查。
- Redis和ECS之间的连接问题
- 密码问题
- 实例配置问题
- 客户端连接问题
- 带宽超限导致连接问题
- 性能问题导致连接超时
Redis和ECS之间的连接问题
客户端所在的ECS必须和Redis实例在同一个VPC内,并且需要确保ECS和Redis之间可以正常连接。
- 如果是Redis 3.0实例,Redis和ECS的安全组没有配置正确,连接失败。
解决方法:配置ECS和Redis实例所在安全组规则,允许Redis实例被访问。
- 如果是Redis 4.0/5.0/6.0实例,开启了白名单功能,连接失败。
如果实例开启了白名单,在使用客户端连接时,需要确保客户端IP是否在白名单内,如果不在白名单,会出现连接失败。客户端IP如果有变化,需要将变化后的IP加入白名单。
- Redis实例和ECS不在同一个Region。
解决方法:不支持跨Region访问,可以在ECS所在的Region创建Redis实例,创建时注意选择与ECS相同VPC,创建之后,使用数据迁移进行迁移,将原有Redis实例数据迁移到新实例中。
- Redis实例和ECS不在同一个VPC。
不同的VPC,网络是不相通的,不在同一VPC下的ECS无法访问Redis实例。可以通过创建VPC对等连接,将两个VPC的网络打通,实现跨VPC访问Redis实例。
关于创建和使用VPC对等连接,请参考《虚拟私有云用户指南》的“对等连接”文档说明。
密码问题
密码输入错误时,端口可以连接上,但鉴权认证会失败。如果忘记了密码,可以重置缓存实例密码。
实例配置问题
连接Redis时存在拒绝连接,可登录分布式缓存服务控制台,进入实例详情页面,调整实例参数maxclients的配置,具体操作可参考修改实例配置参数。
客户端连接问题
(1)在使用Redis-cli连接Cluster集群时,连接失败。
解决方法:请检查连接命令是否加上 -c ,在连接Cluster集群节点时务必使用正确连接命令。
- Cluster集群连接命令:
./redis-cli -h {dcs_instance_address} -p 6379 -a {password} -c
- 单机、主备、Proxy集群连接命令:
./redis-cli -h {dcs_instance_address} -p 6379 -a {password}
具体连接操作,请参考Redis-cli连接。
(2)出现Read timed out或Could not get a resource from the pool。
解决方法:
- 排查是否使用了keys命令,keys命令会消耗大量资源,造成Redis阻塞。建议使用scan命令替代,且避免频繁执行。
- 排查实例是否是Redis 3.0,Redis 3.0底层用的是sata盘,当Redis数据持久化即AOF时,会触发偶现的磁盘性能问题,导致连接异常,可更换Redis实例为4.0 和5.0版本,其底层是ssd盘,磁盘性能更高,或若不需要持久化可关闭AOF。
(3)出现unexpected end of stream错误,导致业务异常。
解决方法:
- Jedis连接池调优,建议调整连接池参数。
- 排查是否大key较多。
连接断开。
解决方法:
- 调整应用超时时间。
- 优化业务,避免出现慢查询。
- 建议使用scan命令替代keys命令。
(4)Jedis连接池问题,请参考使用Jedis连接池报错如何处理?。
带宽超限导致连接问题
当实例已使用带宽达到实例规格最大带宽,可能会导致部分Redis连接超时现象。
您可以查看监控指标“流控次数”,统计周期内被流控的次数,确认带宽是否已经达到上限。
然后,检查实例是否有大Key和热Key,如果存在大Key或者单个Key负载过大,容易造成对于单个Key的操作占用带宽资源过高。大Key和热Key操作,请参考缓存分析。
性能问题导致连接超时
使用了keys等消耗资源的命令,导致CPU使用率超高;或者实例没有设置过期时间、没有清除已过期的Key,导致存储的数据过多,一直在内存中,内存使用率过高等,这些都容易出现访问缓慢、连接不上等情况。
- 建议客户改成scan命令或者禁用keys命令。
- 查看监控指标,并配置对应的告警。监控项和配置告警步骤,可查看必须配置的告警监控。
例如,可以通过监控指标“内存利用率”和“已用内存”查看实例内存使用情况、“活跃的客户端数量”查看实例连接数是否达到上限等。
- 检查实例是否存在大Key和热Key。
DCS控制台提供了大Key和热Key的分析功能,具体使用,请参考缓存分析