方案原理
本章节分别通过生产站点正常工作、生产站点故障以及生产站点和跨可用区容灾站点同时故障三个场景,介绍在不同的故障情况下,本方案如何接管用户的业务。
生产站点正常工作
当生产站点正常工作时,状态如图1所示。
- 通过SDRS,在区域A内将可用区1的生产站点服务器的数据、配置信息同步复制到可用区2的跨可用区容灾站点,为跨可用区容灾做准备。日常可定期进行容灾演练,模拟真实故障恢复场景,制定应急恢复预案。
- 通过CBR,对位于区域A的生产站点服务器进行周期性整机备份,然后周期性将整机备份复制到区域B的跨区域容灾站点,为跨区域容灾做准备。
生产站点故障
在出现设备故障等小范围的故障,造成生产站点不可用时,应用可在不丢失数据的情况下切换到跨可用区容灾站点运行,如图2所示。
该阶段的容灾RPO(Recovery Point Objective)等于0,RTO(Recovery Time Objective)在30分钟内。
RPO:最多可能丢失的数据的时长。
RTO:从灾难发生到整个系统恢复正常所需要的最大时长。
生产站点和跨可用区容灾站点同时故障
在出现自然灾害地震等大范围灾难,造成生产站点和跨可用区容灾站点同时不可用时,应用可以切换到跨区域容灾站点。通过周期性复制到区域B的整机备份创建整机镜像,然后使用整机镜像创建云服务器,在跨区域容灾站点恢复应用,保证业务连续运行,如图3所示。
该阶段的容灾RPO取值为0 ~ 周期性备份间隔,当前备份间隔最小为1小时,RTO在30分钟内。
跨区域容灾阶段,RPO = 发生灾难时间点 - 最新的备份文件时间点。