更新时间:2023-06-16 GMT+08:00

方案原理

本章节分别通过生产站点正常工作、生产站点故障以及生产站点和跨可用区容灾站点同时故障三个场景,介绍在不同的故障情况下,本方案如何接管用户的业务。

生产站点正常工作

当生产站点正常工作时,状态如图1所示。

  • 通过SDRS,在区域A内将可用区1的生产站点服务器的数据、配置信息同步复制到可用区2的跨可用区容灾站点,为跨可用区容灾做准备。日常可定期进行容灾演练模拟真实故障恢复场景,制定应急恢复预案。
  • 通过CBR,对位于区域A的生产站点服务器进行周期性整机备份,然后周期性将整机备份复制到区域B的跨区域容灾站点,为跨区域容灾做准备。
图1 生产站点正常工作

生产站点故障

在出现设备故障等小范围的故障,造成生产站点不可用时,应用可在不丢失数据的情况下切换到跨可用区容灾站点运行,如图2所示。

该阶段的容灾RPO(Recovery Point Objective)等于0,RTO(Recovery Time Objective)在30分钟内。

RPO:最多可能丢失的数据的时长。

RTO:从灾难发生到整个系统恢复正常所需要的最大时长。

图2 生产站点故障

生产站点和跨可用区容灾站点同时故障

在出现自然灾害地震等大范围灾难,造成生产站点和跨可用区容灾站点同时不可用时,应用可以切换到跨区域容灾站点。通过周期性复制到区域B的整机备份创建整机镜像,然后使用整机镜像创建云服务器,在跨区域容灾站点恢复应用,保证业务连续运行,如图3所示。

该阶段的容灾RPO取值为0 ~ 周期性备份间隔,当前备份间隔最小为1小时,RTO在30分钟内。

跨区域容灾阶段,RPO = 发生灾难时间点 - 最新的备份文件时间点。

图3 生产站点和跨可用区容灾站点同时故障