产品介绍
服务概述
云原生时代业务和技术的复杂性不断攀升,表现为业务迭代速度越来越快、应用系统架构愈发复杂、跨团队协作越来越频繁,导致风险及成本越来越高,这极大制约了业务的稳定性和可用性,混沌工程的出现,就是赋予业务在面对失控条件时具备较强的可观测性和故障恢复能力。
运维内容实施支持服务的混沌演练实施支持服务,是基于华为云COC混沌演练平台,承载华为云混沌工程的最佳实践,为用户提供一站式自动化混沌演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程,使能用户对云上应用进行主动风险识别、风险管理和消减,提升业务韧性。
服务内容
服务分类 |
服务目录 |
服务内容 |
---|---|---|
运维内容实施支持服务 |
混沌演练实施支持服务 |
基于华为云COC混沌演练平台,为用户提供一站式的自动化混沌演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程,使能用户对云上应用进行主动风险识别、风险管理和消减,提升业务韧性。 |
前提条件
- 用户应提前至少10工作日申请该服务,以便华为评估用户需求,安排对应服务支持。
- 双方达成一致的服务目标,并完成合同签订。
服务范围
- 服务覆盖范围
- 运维内容实施支持服务的混沌演练实施支持服务基于COC混沌演练平台提供一站式的自动化演练能力,覆盖端到端的演练流程。
- 针对云主机、云原生、华为云中间件服务、Java应用等场景提供混沌演练。
- 在线识别和管理云应用的故障模式、应急预案,对风险进行闭环消减。
- 服务不覆盖范围
- 不提供应用系统的设计和运维工作,包括不限于客户应用开发、测试、部署、迁移等。
- 不提供第三方软件的安装、补丁更新、测试、故障诊断、优化等日常运维服务。
- 不提供IDC和硬件设备维护,如网络设备、服务器、存储等硬件巡检、更换、诊断等。
- 服务区域
服务流程
服务阶段 |
服务说明 |
---|---|
提交服务申请 |
用户提出运维内容实施支持服务的需求 |
需求沟通确认 |
确认具体的业务需求及目标 |
服务订单确认 |
实施权益项服务 |
服务交付实施 |
提供服务交付件 |
服务验收 |
服务验收结束 |
服务交付件
服务名称 |
交付件 |
验收报告 |
---|---|---|
运维内容实施支持服务 |
《混沌演练实施支持服务建议书》 |
《混沌演练实施支持服务验收报告》 |
责任矩阵
- 共同责任
- 双方商定并确认具体业务需求、范围及目标。
- 双方商定并确认项目管理计划,对项目周期、实施标准、风险管控、项目质量、项目验收标准等达成共识。
- 双方就演练方案、验收标准进行商定,确认方案内容并评审。
- 完成合同签订。
- 华为责任
- 华为需明确此次项目的负责人,因特殊情况导致华为人员变更,需要提前3个工作日知会用户,直至项目最终验收完成。
- 华为得到用户授权后,授权数据仅限用于专业服务中涉及的服务内容,不得超出限定范围。
- 客户责任
- 提供详细准确的需求和场景。
- 提供业务系统相关的信息,包括但不限于应用架构、部署架构、资源信息。
- 提供因演练场景需要必要的授权,配合华为云演练过程中工作开展。
- 审核并确认华为提供的交付件。
- 责任分工矩阵表
- R=责任方/Responsibility
- S=协助方/Support
序号
流程
工作内容
华为
用户
1
混沌演练规划
- 组建团队。
- 需求评估。
- 信息收集。
- 演练启动会。
- 演练范围授权。
R
S
2
混沌演练准备
- 确定演练计划,各场景演练目标。
- 演练涉及范围,演练时间窗和演练日期。
- 历史故障分析。
- 调研故障场景。
- 输出演练方案。
S
R
3
混沌演练执行
- 演练方案实施。
- 故障注入。
- 记录演练风险、告警、发生时间等。
- 评估客户业务韧性、故障影响、恢复能力以及可恢复性等。
- 输出故障演练结果。
R
S
4
混沌演练复盘
- 演练方案与执行结论分析。
- 评估演练是否达到预期。
- 输出演练方案、改进点与后续方案。
R
S
验收标准
华为云提供《混沌演练实施支持服务建议书》交付件,客户线下签字并盖章《混沌演练实施支持服务验收报告》,或者在控制台单击验收,均视为服务验收合格。