迁移故障处理
本章节介绍了在迁移过程中不同迁移故障的处理建议。
重新启动数据同步失败
重新启动数据同步失败的处理建议:
- 分析源Redis是否存在大Key,如果源Redis存在大key,建议将大key打散成多个小key后再迁移。
- 检查目标Redis的规格是否小于迁移数据大小、是否有其他任务在执行。
- 如果目标Redis的实例规格小于迁移数据大小,迁移过程中,内存被占满,会导致迁移失败。
- 如果目标Redis存在正在执行的主备倒换,建议联系技术支持关闭主备倒换后,重新执行数据迁移。待迁移完成后,重新开启主备倒换。
- 提供错误信息,联系技术支持。
Redis服务地址不通
Redis服务地址不通,建议从以下几个方面做排查 :
解析RDB失败
解析RDB失败的处理建议:
请检查源端Redis日志,通常是全量同步过久或者增量过大,导致output buffer打满。通常解决办法有如下几种:
- 修改增大源端output buffer的大小,通过修改output-buffer-limit参数,建议采用这种方式。
- 增大shake全量同步的并发度,调高parallel。
- 在业务低峰期再进行同步。
Redis的IP和port参数非法
Redis的IP和port参数非法的处理建议:请提供错误信息,联系技术支持。
任务失败
任务失败的处理建议:提供错误信息,联系技术支持。
集群不支持AOF格式文件导入
集群不支持AOF格式文件导入的处理建议:
Cluster集群仅支持导入.rdb备份文件,不支持.aof备份文件。
迁移AOF文件到目标Redis失败
迁移AOF文件到目标redis失败,建议从以下几个方面做排查 :
迁移RDB文件到目标Redis失败
迁移RDB文件到目标redis失败,建议从以下几个方面做排查 :
解压文件失败
解压文件失败的处理建议:
- 确保文件未损坏,且文件格式正常。
- 排查迁移机规格太小,磁盘是否已写满,此情况建议扩容迁移机规格。
不支持该文件格式
不支持该文件格式的处理建议:
只支持.rdb、.aof、.zip、.tar.gz文件格式。
文件或目录不存在
文件或目录不存在的处理建议:
- 排查迁移机规格太小,磁盘是否已写满,此情况建议扩容迁移机规格。
- 提供错误信息,联系技术支持。
无法连接到源Redis
无法连接到源Redis的处理建议:
- 参见Redis连接失败问题排查和解决。
- 排查源Redis规格和迁移机内存大小,迁移机的内存小,源Redis数据量过大,迁移速度过慢使数据堆积在迁移机上时,也会导致该类问题,此情况建议扩容迁移机规格。
- 排查迁移机路由是否正常,迁移机上执行命令查看:route - n
- 提供错误信息,联系技术支持。
从源节点导出备份文件失败
从源节点导出备份文件失败,建议从以下几个方面做排查 :
导入备份文件到目标Redis失败
导入备份文件到目标Redis失败,建议从以下几个方面做排查 :
修改redis-shake-conf配置文件失败,参数错误
修改redis-shake-conf配置文件失败的处理建议:
- 排查迁移机规格太小,磁盘是否已写满,此情况建议扩容迁移机规格。
- 提供错误信息,联系技术支持。
同步数据失败,源节点:{0},目标节点:{1}
同步数据失败的处理建议:
- 分析源Redis是否存在大Key,如果源Redis存在大key,建议将大key打散成多个小key后再迁移。
- 确保目标Redis规格不小于源Redis。查看规格步骤参见查看实例信息;
- 参见Redis连接失败问题排查和解决。
- 排查源Redis规格和迁移机内存大小,迁移机的内存小,源redis数据量过大,迁移速度过慢使数据堆积在迁移机上时,也会导致该类问题,此情况建议扩容迁移机规格。
部署migration工具失败
部署migration工具失败的处理建议:
- 排查数据面到OBS服务网络是否正常。
- 提供错误信息,联系技术支持。
在线迁移失败
在线迁移失败的处理建议:提供错误信息,联系技术支持。
绑定port到ECS虚拟机失败
绑定port到ECS虚拟机失败的处理建议:
迁移任务底层资源可能不足,需要联系技术支持处理。
创建迁移ECS虚拟机失败
创建迁移ECS虚拟机失败的处理建议:提供错误信息,联系技术支持。
文件操作异常
文件操作异常的处理建议:
- 排查源Redis规格和迁移机内存大小,迁移机的内存小,源Redis数据量过大,迁移速度过慢使数据堆积在迁移机上时,也会导致该类问题,此情况建议扩容迁移机规格。
- 提供错误信息,联系技术支持。
执行命令异常
执行命令异常的处理建议:
- 错误信息中包含“listening-port”和“REPLCONF”相关,请检查源Redis是否放通SYNC和PSYNC命令,迁移任务底层资源与源Redis、目标Redis网络是否连通。
在线迁移,必须满足源Redis和目标Redis的网络相通、源Redis已放通SYNC和PSYNC命令这两个前提,否则,会迁移失败。
- 错误信息包含“read error”,且为全量迁移过程中失败,数据量过大的情况下,建议开始迁移时不要选择“自动重连”模式,等到进入“增量迁移”后,再选择“自动重连”模式,且调大repl-timeout的时间值;同时建议调整源端output buffer参数,buffer参数的大小需要根据源端内存大小来定,比如源端24G的内存大小,可以调整为2G的buffer,命令: client-output-buffer-limit slave 2gb 2gb 600 。
- 错误信息中包含“write: connection reset by peer”,可能原因目标Redis内存规格太小导致内存写满,无法同步数据,建议扩大目标Redis实例规格,至少与源端实例规格持平。
- 错误信息中包含“read: connection reset by peer”,源Redis为主备,且迁移过程中,频繁发生主备倒换,请分析源Redis是否存在大Key,如果源Redis存在大key,建议将大key打散成多个小key后再迁移。也可强行关闭主备倒换,等数据迁移完毕后再开启主备倒换,命令:config set slave-priority 0。如果目标Redis为proxy集群,请排查pipeline阈值大小,建议调整proxy节点pipeline阈值为5W,命令: proxy.config set client-max-pipeline 50000。
- 提供错误信息,联系技术支持。
解码或解析失败
解码或解析失败的处理建议:
- 排查迁移机规格太小,磁盘是否已写满,此情况建议扩容迁移机规格。
- 提供错误信息,联系技术支持。
未知或未支持的命令
未知或未支持的命令的处理建议:
检查源Redis有没有放通相关命令,如SYNC和PSYNC,需要联系技术支持放通命令。
在线迁移,必须满足源Redis和目标Redis的网络相通、源Redis已放通SYNC和PSYNC命令这两个前提,否则,会迁移失败。
同步数据失败
同步数据失败的处理建议:
- 错误信息包含“key name is busy”,目标Redis对应的key已经存在,删除目标Redis报错的key。
- 错误信息包含“not in the same slot“,建议进行业务改造,不要在多key命令里面用跨slot的key;也可以把目标Redis用主备实例代替proxy集群实例。
- 错误信息中包含“read: connection reset by peer”,源Redis为主备,且迁移过程中,频繁发生主备倒换,请分析源Redis是否存在大Key,如果源Redis存在大key,建议将大key打散成多个小key后再迁移;也可强行关闭主备倒换,等数据迁移完毕后再开启主备倒换,命令:config set slave-priority 0。如果目标Redis为proxy集群,请排查pipeline阈值大小,建议调整proxy节点pipeline阈值为5W,命令: proxy.config set client-max-pipeline 50000。
导入备份文件失败
导入备份文件失败的处理建议:提供错误信息,联系技术支持。