更新时间:2024-05-15 GMT+08:00
分享

演练服务概述

演练服务(WiseChoas)起始于系统改造,具备基本韧性,引入混沌工程并持续向IT化、自动化、智能化、场景化发展。对混沌工程实践进行全流程、数字化、体系化度量,具备精细化持续运营能力。通过完善工具链实现演练过程可控可视,演练场景可复用,高度自动化,最终实现无人值守演练。

产品优势

  • 丰富的故障模式库:涵盖了网络和数据库等多种对象的故障注入场景,包括IaaS、Paas、Saas等近80+故障原子能力。您可以在一次演练中灵活组合和编排多个故障动作,同时支持自定义动作脚本注入,满足您的业务个性化需求。
  • 典型的行业经验模板:演练服务将华为云的内部实践和典型用户场景转化为行业经验模板,供您快速复用,极大提高了演练效率。演练服务提供了电商、游戏、多媒体等多个行业的演练方案供您选择,覆盖了跨可用区容灾演练、服务压力演练等多个典型应用场景。同时,还支持用户建立自定义场景库,快速创建演练任务,让您的操作更加高效。
  • 高效的可视化演练:演练对象选择以及故障注入过程可视化,让您对演练过程一目了然,降低操作门槛。在选择演练对象时,您可以实时预览实例资源分布视图,降低出错概率。演练中,会展示实例资源分布视图(子网、可用区、对象类型等),帮助您精准控制爆炸半径,保障演练安全。此外,故障动作组可视化编排,让您在演练过程中可以实时查看故障注入状态和注入效果,降低操作成本。
  • 可靠的安全防护策略:演练服务支持配置监控指标,让您在演练过程中观察稳态指标变化,系统变化实时感知。同时,还支持配置告警策略,当安全护栏触发后会自动停止演练,让您更加放心地进行演练。此外,平台支持一键终止演练、超时回滚等功能,全方位保障业务安全。并且依托权限管控机制,实现了精细化演练权限管理。
  • 完备的演练报告:演练结束后,支持生成演练报告的功能,帮助您进行演练复盘和记录问题。演练报告内容涵盖基本信息、数据统计、实例资源可视化分布图、演练执行日志等详细信息。
  • 实现混沌工程自动化:具备80多种故障注入方法,全方位模拟各种故障,预定义50多种故障演练场景,支持业务快速演练。
  • 演练过程全自动化:支持每天上百次演练,全范围发现应用稳定性死角。

使用场景

跨AZ容灾演练:在云环境中,跨可用区部署是一种常见的容灾架构。这种架构的主要作用是确保在单可用区发生电力、网络或自然灾害等故障时,灾备可用区仍能继续提供服务,从而保证服务的连续性。

服务压力演练:在电商活动等高并发场景中,大量的用户访问可能导致关键服务面临极限压力甚至崩溃,进而出现页面卡顿、请求失败等问题,对业务造成严重影响。混沌演习可以帮助您提前发现并规避此类容灾隐患问题。

网络故障演练:在游戏等领域中,一个出色的系统构造对不良的网络状况具有较高的承受力,即使在出现普通的网络波动时,也能让用户几乎没有任何感知。在中等网络故障发生时,系统应具备自我调整的能力。而在严重的网络故障情况下,系统不应完全失去可用性。为了确保用户的体验,不良网络保障、预加载、节点加速以及并发调度等服务的容灾能力必须达到极致。

使用对象

演练服务中区分不同的职能角色,不同角色的权限不同。

  • 演练服务管理员:负责管理演练服务故障场景库,需申请演练服务的“服务运维岗位”权限。
  • 产品管理员:负责管理产品级演练方案,需申请“产品管理员岗位”权限。
  • 服务运维:负责管理服务级演练方案、演练计划、演练任务、演练报告、演练问题等,需申请“服务运维岗位”权限。

使用流程

使用演练服务进行故障演练的流程如下图:

  1. 创建故障场景库:演练服务管理员提供故障场景库,故障场景库是公共故障场景的集合。
  2. 创建产品级演练方案:产品管理员需要创建产品级演练方案。
  3. 创建服务级演练方案:服务级演练方案是后续演练执行的具体内容,通过创建演练方案,并为演练方案创建故障场景,完善方案设计。
  4. 制定演练计划:将服务级演练方案下需要演练的故障场景按季度进行分配。
  5. 创建演练任务并执行演练,演练完成后可以完善演练报告,支持以下演练方式:
    • 场景快速演练:根据场景快速完成演练配置及故障演练。
    • 场景编排演练:场景快速演练不能满足演练要求,可以对故障场景设置编排演练。
  6. 创建演练问题(可选):演练服务支持将演练过程中出现的问题进行管理,并通过改进措施跟进处理。
  7. 稳定性评估(可选):支持以服务维度和产品维度进行稳定性评估,产品维度评估需要产品管理员权限。
分享:

    相关文档

    相关产品