OPS03-05 进行混沌测试和演练
混沌工程(Chaos Engineering)是通过故障注入,验证故障快速恢复能力及系统可靠性的实践活动。
- 风险等级
高
- 关键策略
通过混沌工程的方法模拟可能出现的故障,进而综合验证系统在不同故障场景下的容错能力、监控能力、应急响应能力、定界定位、快速恢复等确定性恢复能力。
验证高可用设计:业务系统在规划设计阶段进行架构高可用设计、监控设计,在上线前进行生产准备度评审 (PRR)、性能压测,确保系统能够持续提供稳定、可靠的服务。混沌工程从应用部署架构、服务容量、监控告警、应用高可用等多维度设计演练场景,先测试、后攻防、再突袭逐步递进式的开展演练。通过持续演练,对架构高可用、监控、PRR 等能力做“在线验证”,实现持续性的动态风险治理。混沌演练和高可用设计共同成为系统稳定性的“双引擎”。
系统风险消减、业务快速恢复:分析系统潜在风险(故障场景),制定应急预案,验证故障场景的覆盖率和命中率,验证应急预案的质量和执
行效率,做到“少出事”和“出了事快速恢复”,实现确定性恢复的目的。
少出事:尽量挖掘潜在风险,区分等级和危害,通过执行演练检验业务风险消减能力。
出了事快速恢复:通过主动制造故障,让运维和研发熟悉故障场景,验证应急恢复预案,从而加快恢复速度。
混沌工程度量指标
- 故障场景的覆盖率:分析故障场景的覆盖率,例如容灾场景覆盖 80%,过载场景覆盖 60%。
- 故障场景的命中率:分析故障场景中,真实发生的比率。
- 应急预案的质量:用于度量应急预案有效性和执行效率。
- 风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。
- 风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。
- 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。
- 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。
- 相关云服务和工具