创建演练任务
操作场景
演练任务功能允许用户通过模拟软件或硬件故障来测试系统的恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务的流程。演练任务的设置包括基础信息、攻击任务组的添加、攻击任务的选择、攻击场景的选择等。此外,演练任务还涉及监控任务配置,以及演练后的复盘改进,确保系统在各种压力下的表现行为能够确定优化策略。
操作视频指导
任务自动关闭机制
- 超时自动关闭:当演练任务执行失败后,若操作人员未在48小时内手动关闭任务,系统将自动终止该演练任务。
- 异常自动终止:在演练执行过程中,如检测到POD出现异常(例如POD已被删除)或资源运维类的手动关单,系统将立即自动停止当前任务。
创建演练任务
COC提供直接创建和基于模板创建两种演练任务的实现方式,用户可结合自身业务场景、演练复杂度及标准化需求,灵活选择适配方案,保障演练任务高效落地,提升应急演练的规范性与执行效率。
直接创建演练任务:适用于临时突发的演练需求、个性化定制化的演练场景,或首次开展无历史模板可复用的演练任务,例如针对某一突发故障的专项应急演练、临时性的业务流程验证演练。
使用模板创建演练任务:适用于周期性重复演练、标准化流程演练,或需要统一多团队演练标准的场景,例如月度灾备切换演练、季度安全应急演练、跨部门协同的常规流程演练。
- 登录云运维中心。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”。
- 单击左上方“演练任务”。
- 单击“创建演练任务”。
同时也可以通过演练规划接单功能进入创建演练任务页面,详细步骤请参考演练规划。
- 设置“基础信息”。
表1 基础信息参数说明 参数
说明
示例
演练任务名称
根据命名规则,自定义演练任务的名称。
名称由中文、字母、数字、中划线、下划线个空格组成,且不能以空格开头或结尾,最长支持64个字符。
test-drill
期望恢复时长(分钟)
从故障发生到故障恢复的预期时间,单位为分钟。
在故障注入之后,应用自恢复或在执行应急预案时恢复到正常状态的期望时间,该时间不会对演练任务产生影响。
3
- 单击“添加一个新的攻击任务”。
默认有1个攻击任务组,单击“添加新的任务组”可添加新的任务组。添加攻击任务后继续单击“添加一个新的攻击任务”,可添加新的攻击任务。
- 任务组间的任务为串行执行,任务组内的任务为并行执行。
- 当前不支持一个任务组内对同一个资源的多次故障注入。
- 若需要添加已有任务,单击“选择已有”,勾选已有任务,单击“确定”。
- 若需要添加新的攻击任务,请参考后续步骤。
- 参考表2选择攻击目标。
表2 添加新的攻击任务参数说明 参数
说明
示例
云厂商
请选择云厂商类型。
目前支持华为云、IDC离线资源和阿里云。
华为云
攻击目标来源
请选择目标实例的类型。
弹性云服务器(ECS)
攻击任务名称
根据命名规则,自定义攻击任务的名称。
默认名称为攻击目标类型加创建时间戳,例如,攻击目标来源选择弹性云服务器(ECS),创建时间为2025年12月18日14时36分08秒,则自动生成名称为“弹性云服务器_20251218143608”。
test-attacktask
攻击目标
请选择目标实例。
可通过应用筛选攻击目标。
云容器引擎 (CCE)支持通过选择实例、指定pod、指定数量方式选择攻击目标。
-
- 单击“下一步”,设置攻击场景。
攻击场景详细介绍请参考攻击场景说明。
表3 选择攻击场景参数说明 参数
说明
示例
攻击类型
根据攻击场景的类型区分。
主机资源
攻击场景
选择对应的攻击场景。
CPU使用率加压
攻击参数
根据不同的攻击场景,配置相应的攻击参数。
- CPU使用率(百分比):80
- 故障持续时长(秒):60
- 单击“下一步”。
- (可选)设置“监控任务配置”。
表4 监控任务配置参数说明 参数
说明
稳态指标
请在下拉列表依次选择:目标资源、性能指标、下限值、上限值。
系统达到稳定状态时所表现出的性能指标,若在执行演练前,稳态指标不在稳定区间内,则会取消执行演练。
监控指标
请在下拉列表依次选择:目标资源、监控指标、下限值、上限值。
监控故障演练过程中各业务指标的数据,位于上下限区间表示业务正常,供用户评估是否需要停止演练。
自动回滚
请选择是否开启自动回滚。
故障注入自动回滚,并恢复到注入前状态,部分不支持终止故障的武器不能配置自动回滚。
若在执行演练中,稳态指标不在稳定区间内,开启自动回滚后故障注入将自动停止。
各实例支持的指标说明可参考云产品监控指标。
- 单击“完成”,完成攻击任务添加。
- 参考表2选择攻击目标。
- 单击“确定”,完成演练任务创建,任务状态为“待演练”。
若您单击“保存草稿”,任务状态为“草稿”,草稿状态的任务不允许启动演练。
- 登录云运维中心。
- 在左侧菜单栏选择“韧性中心 > 演练模板”。
- 您可以选择以下任意方式创建演练任务。
- 设置“基础信息”。
表5 基础信息参数说明 参数
说明
示例
演练任务名称
根据命名规则,自定义演练任务的名称。
test-drill
期望恢复时长(分钟)
从故障发生到故障恢复的预期时间,单位为分钟。
在故障注入之后,应用自恢复或在执行应急预案时恢复到正常状态的期望时间,该时间不会对演练任务产生影响。
3
- 任务组中展示对应场景和参数,选择对应场景,为任务添加攻击目标。
- 单击攻击目标下的“请选择”。
- 云厂商、攻击目标来源会根据场景对应的属性默认选中。
- 攻击目标表格中的实例会根据当前武器场景将不支持该武器的实例复选框置灰。选择已有任务或切换云厂商、切换攻击目标来源后会清除默认的武器信息,具体逻辑可参考创建演练任务。
- 选择攻击目标后单击“下一步”会根据目标场景选中对应的武器,且攻击参数默认值为模板的数据
- (可选)设置“监控任务配置”。
表6 监控任务配置参数说明 参数
说明
稳态指标
请在下拉列表依次选择:目标资源、性能指标、下限值、上限值。
系统达到稳定状态时所表现出的性能指标,若在执行演练前,稳态指标不在稳定区间内,则会取消执行演练。若在执行演练中,稳态指标不在稳定区间内,开启自动回滚后故障注入将自动停止。
监控指标
请在下拉列表依次选择:目标资源、监控指标、下限值、上限值。
监控故障演练过程中各业务指标的数据,位于上下限区间表示业务正常,供用户评估是否需要停止演练。
自动回滚
请选择是否开启自动回滚。
故障注入自动回滚,并恢复到注入前状态,部分不支持终止故障的武器不能配置自动回滚。
- 单击“完成”,完成攻击任务添加。
- (可选)添加一个新的攻击任务。
模板内预置了对应的攻击任务,可根据实际需求场景添加。单击“添加新的任务组”可添加新的任务组。添加攻击任务后继续单击“添加一个新的攻击任务”,可添加新的攻击任务。
- 任务组间的任务为串行执行,任务组内的任务为并行执行。
- 当前不支持一个任务组内对同一个资源的多次故障注入。
- 若需要添加已有任务,单击“选择已有”,勾选已有任务,单击“确定”。
- 若需要添加新的攻击任务,请参考后续步骤。
- 设置攻击目标。
表7 添加新的攻击任务参数说明 参数
说明
示例
云厂商
请选择云厂商类型。
目前支持华为云、IDC离线资源和阿里云。
华为云
攻击目标来源
请选择目标实例的类型。
弹性云服务器(ECS)
攻击任务名称
根据命名规则,自定义攻击任务的名称。
默认名称为攻击目标类型加创建时间戳,例如,攻击目标来源选择弹性云服务器(ECS),创建时间为2025年12月18日14时36分08秒,则自动生成名称为“弹性云服务器_20251218143608”。
test-attacktask
攻击目标
请选择目标实例。
可通过应用筛选攻击目标。
云容器引擎 (CCE)支持通过选择实例、指定pod、指定数量方式选择攻击目标。
-
- 单击“下一步”。
- 设置“选择攻击场景”。
详细介绍请参考攻击场景说明。
表8 攻击场景参数说明 参数
说明
示例
攻击类型
根据攻击场景的类型区分。
主机资源
攻击场景
根据命名规则,自定义攻击任务的名称。
CPU使用率加压
攻击参数
根据不同的攻击场景,配置相应的攻击参数。
- CPU使用率(百分比):80
- 故障持续时长(秒):60
- 单击“下一步”。
- (可选)设置“监控任务配置”。
表9 监控任务配置参数说明 参数
说明
稳态指标
请在下拉列表依次选择:目标资源、性能指标、下限值、上限值。
系统达到稳定状态时所表现出的性能指标,若在执行演练前,稳态指标不在稳定区间内,则会取消执行演练。若在执行演练中,稳态指标不在稳定区间内,开启自动回滚后故障注入将自动停止。
监控指标
请在下拉列表依次选择:目标资源、监控指标、下限值、上限值。
监控故障演练过程中各业务指标的数据,位于上下限区间表示业务正常,供用户评估是否需要停止演练。
自动回滚
请选择是否开启自动回滚。
故障注入自动回滚,并恢复到注入前状态,部分不支持终止故障的武器不能配置自动回滚。
各实例支持的指标说明可参考云产品监控指标。
- 单击“完成”,完成攻击任务添加。
- 设置攻击目标。
- (可选)如不需要模板中某个默认场景,可单击任务后的“删除”。
- 单击“确定”,完成演练任务创建。
演练任务创建完成后,您可以在“韧性中心 > 混沌演练 > 演练任务”中查看,并启动演练。
- 登录云运维中心。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”。
- 单击左上方“演练任务”。
- 选择需要启动的演练任务,单击操作列“启动演练”。
- 单击“确定”。
演练开始,进入演练详情页面,可以查看攻击进度,包括安装探针、执行演练、清理环境三个步骤,系统会自动执行。执行时间视武器的攻击时间而定。
注意:安装探针步骤会在目标机器上部署一个探针,该探针将会运行在系统中用于接收攻击、查询和清除等步骤的武器命令。在演练结束或终止操作后,清理环境步骤将停止其在系统中的所有操作并移除。
- 对于演练执行工单,支持以下操作:
- 优雅终止:演练执行中,单击右上方“优雅终止”,结束待执行或异常的任务。
- 强制终止:建议优先采用优雅终止方式;若优雅终止失败,可在5-10分钟后使用强制终止。需注意,强制终止仅会关闭当前演练工单,不会自动清理环境,需手动处理,具体操作请参考手动清理环境。
- 重试:演练中有部分或全部攻击任务检查实例、安装探针、清理环境或稳态检测步骤执行失败,或执行演练超时,展开失败的攻击任务,单击“重试”,重试当前任务。
- 跳过:演练中有部分或全部攻击任务执行失败,展开失败的攻击任务,单击“跳过”跳过当前任务执行下一个任务。
- 详情:展开攻击任务,单击“详情”查看任务的攻击详情。
查看演练记录
查看演练任务的演练记录。如果当前演练任务没有被演练过,则不能查看演练记录。
- 登录云运维中心。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”。
- 单击左上方“演练任务”。
- 选择需要查看的演练任务,单击操作列“演练记录”。
演练记录页面上方会展示演练任务的基础信息,包括演练任务名称、演练任务ID、攻击详情、故障模式等。下方列表展示所有的演练记录信息,包括演练记录ID、执行状态、执行人、演练开始时间,演练结束时间等。
- 选择需要查看的演练记录,单击操作列“进度查看”。
查看当前演练任务的攻击进度、攻击详情和监控详情。
- 演练记录模块:展示攻击任务详情,包括攻击任务进度、任务信息、执行时间等。
- 攻击详情模块:展示当前任务的对应的应用下面实例攻击情况。暂不支持裸金属服务器(BMS)、Flexus应用服务器L实例(HCSS)、云搜索服务(CSS)。
- 监控详情模块:展示攻击目标的实时监控数据,需要预先在创建攻击任务时配置演练监控任务。支持放大到横向全屏展示。
创建演练报告
演练任务完成后,若有演练报告的制作需求,可以直接创建报告内容。报告创建完成后,还可以一键将报告导出为PDF文件,发送给相关人员。整个过程灵活高效,轻松满足从制作到格式固化的全流程需求。
演练报告支持修改实际恢复时长、创建改进单及查看故障记录,助力用户全面地记录和管理演练活动及结果。
- 登录云运维中心。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”。
- 单击左上方“演练任务”。
- 选择需要查看的演练任务,单击操作列“演练记录”。
- 选择需要操作的演练记录,单击操作列“创建报告”,进入演练报告页面。
演练报告包含以下模块:
- 恢复能力评分模块:支持修改实际恢复时长,系统将自动生成恢复能力评分。
- 基本信息模块:展示演练任务的基本信息,包含演练任务名称、演练报告ID、开始时间、结束时间、演练执行人、演练耗时及期望恢复时长(单位:分钟)。
- 演练过程模块:展示各项演练任务的卡片式信息。
- 攻击任务组模块:展示攻击任务详情,涵盖攻击目标、稳态指标和监控指标。
攻击目标展示已选实例列表,稳态指标和监控指标展示折线图,没有数据则展示“暂无数据”。
- 改进事项模块:支持创建改进单,其列表会默认展开详情内容,包含处理信息和验证信息。
- 单击“编辑时长”,修改实际恢复时长。
实际恢复时长:指故障注入后,应用自主恢复或通过执行应急预案恢复至正常状态所耗费的实际时间。
图1 修改实际恢复时长
表10 修改实际恢复时长参数说明 参数
说明
故障发现时长(分钟)
请填写故障发现时长。
从故障注入完成到收到故障告警的时间。
故障定界时长(分钟)
请填写故障定界时长。
从收到告警到完成故障定界的时间。
故障恢复时长(分钟)
请填写故障恢复时长。
从完成故障定界到故障恢复的时间。
- 单击“确定”,完成实际恢复时长修改。
修改实际恢复时长后,系统将自动生成恢复能力评分。
- 单击“创建改进事项”,在弹框中设置改进单信息。
图2 创建改进单
表11 创建改进单参数说明 参数
说明
改进名称
自定义改进单的名称。
自定义改进单的名称。名称由中文、字母、数学、中划线、下划线和空格组成,且不能以空格开头或结尾,最大长度支持64个字符。
所属应用
在下拉列表选择改进单涉及的应用。
改进类型
在下拉列表选择改进类型。可选类型为“产品改进”、“运维改进”、“管理改进”或“监控告警”。
改进责任人
在下拉列表选择责任用户。
改进验收人
在下拉列表选择验收用户。
期望完成时间
请填写期望完成时间(精确到日),所选日期不得早于今日。
问题现象
请填写事件相关的问题现象。
限制长度最长1000个字符。
改进闭环标准
请填写改进闭环标准。
限制长度最长1000个字符。
- 单击“确定”,完成改进单创建。
创建完成后,改进事项列表会默认展开详情内容,包含处理信息和验证信息。
手动清理环境
强制终止演练任务仅会关闭当前演练工单,不会自动清理环境,需手动进行清理操作。
由于不同探针的清理方式存在差异,具体操作步骤请参照表5 手动清理方式说明。
|
探针类型 |
武器类型 |
清理方式 |
|---|---|---|
|
CFE |
所有 |
1、登录机器。 2、切换路径 /usr/local/cdr_probe、/usr/local/COC-CDR-Probe。 3、清理路径下所有文件:rm -rf /usr/local/cdr_probe/*,rm -rf /usr/local/COC-CDR-Probe/*。 |
|
CSS |
所有 |
无残留,无需清理。 |
|
DCS |
DCS_REDIS_AZSHUTDOWN(DCS实例AZ下电) |
参考DCS指导文档,启动DCS实例。 |
|
其他 |
无残留,无需清理。 |
|
|
DDS |
所有 |
无残留,无需清理。 |
|
Platform |
所有 |
无残留,无需清理。 |
|
RDS |
RDS_FAILOVER(RDS主备倒换) |
无残留,无需清理。 |
|
RDS_SHUTDOWN(RDS停止实例) |
参考RDS指导文档,启动RDS实例。 |
|
|
Script |
SCRIPT_FAULT(自定义脚本) |
1、取消尚未关闭的工单(操作页面:任务管理->执行记录->脚本工单)。 2、执行用户自定义脚本中的clean方法。 |
|
CCE |
所有 |
去Kubnetes集群删除命名空间及相关组件:
|
演练模板说明
本章节提供覆盖多场景的标准化演练模板库,包含应急处置、流程推演、预案实操等12类核心模板。
所有模板均基于行业最佳实践设计,具备结构完整性和内容可复用性:既包含演练背景、流程节点、角色分工等标准框架,又支持根据实际需求快速调整场景参数、风险要素及处置步骤。模板附填写指引与易错提示,帮助使用者快速完成从模板调用到个性化适配的全流程,实现 “即取即用、高效落地” 的演练筹备目标。
|
模板名称 |
模板描述 |
标签 |
等级 |
任务组名称 |
攻击场景 |
|---|---|---|---|---|---|
|
跨AZ容灾 |
在容灾部署架构下,模拟单个可用区整个故障或网络异常的情况下,服务及依赖的中间件进行容灾切换的能力。 |
容灾 |
高级 |
跨AZ容灾 |
整机断网 |
|
DCS AZ下电 |
|||||
|
初涉混沌演练 |
新手上路必备场景,体验混沌演练流程。 |
节点 |
初级 |
初涉混沌演练 |
小试牛刀 |
|
系统资源占用高 |
通过指定系统资源的占用量,测试服务在“高压”场景下的表现情况,提前应对宿主机资源不足的场景。 |
节点 |
中级 |
磁盘加压 |
磁盘使用率加压 |
|
内存加压 |
内存使用率加压 |
||||
|
CPU加压 |
CPU使用率加压 |
||||
|
Kubernetes应用HPA配置 |
云原生架构下, 自动弹性扩缩容是一个很重要的特性; 在有限的资源条件下, 模拟服务Pod资源内存占用短时间内增高后扩容和资源占用降低后的缩容。 |
容器和集群 |
高级 |
Kubernetes应用HPA配置 |
Pod内存加压 |
|
数据存储异常 |
服务的数据存储一般由服务所在的宿主机或中间件承载, 其中服务日志一般存储到宿主机磁盘上,服务数据一般存储到中间件如DDS上;同时模拟ECS磁盘IO高和数据库主备倒换的场景演练。 |
业务和数据 |
中级 |
数据存储异常 |
磁盘IO加压 |
|
备节点强制升主 |
|||||
|
POD自动恢复与智能调度 |
在Kubernetes中,工作负载调度的基本单位是Pod。创建工作负载时,调度器会自动对工作负载中的Pod进行合理分配,例如将Pod分散到资源充足的节点上。 |
集群 |
中级 |
POD自动恢复与智能调度 |
内存使用率加压 |
|
强制停止Pod实例 |
|||||
|
服务所在网络出现异常波动 |
模拟网络不稳定的情况下, 对业务的影响; 通过对业务所在宿主机的网卡注入网络延迟类的故障, 观测系统的应对情况。 |
网络 |
中级 |
服务所在网络出现异常波动 |
网络延迟 |
|
微服务部署架构下环境过载 |
微服务是当前的主流架构, 带来的核心价值是:能缩短业务上线周期及保障业务运行可靠; 但是也带来诸多挑战, 比如负责微服务架构下如何快速实现问题的定位和恢复,以下演练场景将模拟多个微服务所在节点同时出现过载情况。 |
容灾 |
中级 |
微服务部署架构下环境过载 |
CPU使用率加压 |
|
网络连接耗尽 |
|||||
|
杀进程 |
|||||
|
服务器异常掉电 |
本混沌实验模拟服务器掉电后,模拟业务是否能快速恢复, 以及保证业务数据不丢失; 通过本演练实验实现节点掉电后, 用户使用提前准备好的“应急预案”实现快速恢复。 |
业务和数据 |
中级 |
服务器异常掉电 |
关机 |
|
业务中间件缓存数据丢失 |
在大规模数据并发查询场景, 对数据查询效率要求较高, Redis成为互联网应用必不可少的服务之一, 在速度上对比传统数据库有很大优势, 但是可能存在数据一致性和可靠性等问题, 本混沌实验验证Redis数据清空后,业务是否正常。 |
容灾 |
中级 |
业务中间件缓存数据丢失 |
DCS实例重启 |
|
宿主机配置文件误操作 |
运维直接对服务所在宿主机进行黑屏操作是高风险操作,如直接修改服务配置文件的权限, 可能就会导致业务进程对该文件不可读写,本混沌实验推荐使用“自定义脚本”的方式对宿主机上配置文件进行操作(修改权限或删除), 用户使用提前准备好的“应急预案”实现快速恢复。 |
业务和数据 |
中级 |
宿主机配置文件误操作 |
自定义脚本 |
|
流量自动切换 |
Flexus应用服务器L实例是新一代开箱即用、面向中小企业和开发者打造的全新轻量级应用云服务器, 用户可以在L实例上部署数据库或服务应用,本演练模拟进程消失和数据库节点不通情况下的业务流量切换能力。 |
网络 |
高级 |
流量自动切换 |
杀进程 |
|
网络中断 |
更多相关操作
创建演练任务后,您可以根据业务需求进行以下操作。
|
功能 |
场景说明 |
操作 |
|---|---|---|
|
修改演练任务 |
对已创建的演练任务支持修改。 注意:若该任务已启动并生成演练记录,则不可进行修改。 |
在演练任务页面,选择需要修改的演练任务,单击操作列“更多 > 修改”。 |
|
删除演练任务 |
已创建的演练任务如果不再需要使用,支持删除。但需注意以下场景:
|
在演练任务页面,选择需要删除的演练任务,单击操作列“更多 > 删除”。 |
|
导出报告 |
在演练报告页面,单击右上角的“导出报告”按钮,即可下载当前页面的PDF文件。 |
在演练报告页面,单击右上角的“导出报告”按钮,即可下载当前页面的PDF文件。 |
|
刷新 |
在演练报告页面,单击右上角的“刷新”按钮,即可刷新当前页面。 |
在演练报告页面,单击右上角的“刷新”按钮,即可刷新当前页面。 |
|
查看演练报告 |
在演练记录页面,选择需要查看的演练记录,单击操作列“查看报告”。 |
在演练记录页面,选择需要查看的演练记录,单击操作列“查看报告”。 |