链接复制成功!
演练任务
操作场景
演练任务功能允许用户通过模拟软件或硬件故障来测试系统的恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务的流程。演练任务的设置包括基础信息、攻击任务组的添加、攻击任务的选择、攻击场景的选择等。此外,演练任务还涉及监控任务配置,以及演练后的复盘改进,确保系统在各种压力下的表现行为能够确定优化策略。
创建演练任务
- 登录COC。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”。
- 单击左上方“演练任务”。
- 单击“创建演练任务”。
同时也可以通过演练规划接单功能进入创建演练任务页面,详细步骤请参考演练规划。
- 设置“基础信息”。
表1 基础信息参数说明 参数
说明
示例
演练任务名称
根据命名规则,自定义演练任务的名称。
test-drill
期望恢复时长(分钟)
从故障发生到故障恢复的预期时间,单位为分钟。
在故障注入之后,应用自恢复或在执行应急预案时恢复到正常状态的期望时间,该时间不会对演练任务产生影响。
3
- 单击“添加一个新的攻击任务”。
默认有1个攻击任务组,单击“添加新的任务组”可添加新的任务组。添加攻击任务后继续单击“添加一个新的攻击任务”,可添加新的攻击任务。
说明:
1.任务组间的任务为串行执行,任务组内的任务为并行执行。
2.当前不支持一个任务组内对同一个资源的多次故障注入。
- 设置“添加新的攻击任务”。
- 若需要添加已有任务,单击“选择已有”,勾选已有任务,单击“确定”。
- 若需要添加新的攻击任务,请参考后续步骤。
表2 添加新的攻击任务参数说明 参数
说明
示例
云厂商
请选择云厂商类型。
华为云
攻击目标来源
请选择目标实例的来源。
云容器引擎 (CCE)支持通过选择实例、指定pod、指定数量方式选择攻击目标。
弹性云服务器(ECS)
攻击任务名称
根据命名规则,自定义攻击任务的名称。
test-attacktask
攻击目标
请选择目标实例。
-
- 单击“下一步”。
- 设置“选择攻击场景”。
表3 选择攻击场景参数说明 参数
说明
示例
攻击类型
根据攻击场景的类型区分。
主机资源
攻击场景
根据命名规则,自定义攻击任务的名称。
CPU使用率加压
攻击参数
根据不同的攻击场景,配置相应的攻击参数。
CPU使用率(百分比):80
故障持续时长(秒):60
- 单击“下一步”。
- (可选)设置“监控任务配置”。
表4 监控任务配置参数说明 参数
说明
稳态指标
请在下拉列表依次选择:目标资源、性能指标、下限值、上限值。
系统达到稳定状态时所表现出的性能指标,若在执行演练前, 稳态指标不在稳定区间内,则会取消执行演练。若在执行演练中,稳态指标不在稳定区间内,开启自动回滚后故障注入将自动停止。
监控指标
请在下拉列表依次选择:目标资源、监控指标、下限值、上限值。
监控故障演练过程中各业务指标的数据,位于上下限区间表示业务正常,供用户评估是否需要停止演练。
自动回滚
请选择是否开启自动回滚。
故障注入自动回滚,并恢复到注入前状态,部分不支持终止故障的武器不能配置自动回滚
- 单击“完成”,完成攻击任务添加。
- 设置“添加新的攻击任务”。
- 单击“确定”,完成演练任务创建。
编辑演练任务
编辑已经创建的演练任务,演练任务已生成演练记录,不可操作编辑。
- 登录COC。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。
- 在演练任务列表的“操作”列,选择“更多 > 编辑”,可修改演练任务的基本信息。
图1 单击“编辑”
- 编辑攻击任务,支持添加新的任务组,添加一个新的攻击任务,删除已有的攻击任务,已经创建的单个攻击任务不支持修改。
- 单击“完成配置”,即可完成演练任务的编辑。
图2 编辑演练任务
删除演练任务
删除已经创建的演练任务,该演练任务已生成演练记录,不可操作删除,已有演练规划关联该演练任务,不可操作删除。
- 登录COC。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。
- 在演练任务列表的“操作”列,单击“更多 > 删除”。
图3 演练任务列表
- 在弹框中单击“确认”,即可删除演练任务。
图4 删除演练任务
启动演练
对已经创建的演练任务,启动演练。
- 登录COC。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。
- 在演练任务列表的“操作”列,单击“启动演练”,进入“演练记录详情”页面。
图5 启动演练
- 在“演练详情”页面可以查看攻击进度,包括安装探针、执行演练、清理环境三个步骤,系统会自动执行。执行时间视武器的攻击时间而定。
注意:
安装探针步骤会在目标机器上部署一个探针,该探针将会运行在系统中用于接收攻击、查询和清除等步骤的武器命令。在演练结束或终止操作后,清理环境步骤将停止其在系统中的所有操作并移除。
图6 攻击进行中图7 攻击完成 - 演练执行过程中,可单击“终止”来结束演练,单击“重试”来重试当前步骤或者单击“跳过”来跳过当前步骤执行下一个步骤。如果在创建攻击任务时配置了演练监控任务,“监控详情”中即可查看攻击目标的实时监控数据。
图8 演练监控数据
- 单击演练任务中的“详情”,可查看任务的攻击详情。
图9 任务攻击详情
- “攻击详情”模块中,可查看当前任务的对应的应用下面实例攻击情况。
图10 应用攻击详情
查看演练记录
查看演练任务的演练记录。如果当前演练任务没有被演练过,则不能查看演练记录。
- 登录COC。
- 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。
- 找到需要查看的演练任务,单击“操作”列“演练记录”,进入“演练记录”页面。
图11 演练任务列表
- 演练记录页面上方会展示演练任务的基本信息,包括演练任务名称、演练任务ID、攻击详情、故障模式等。下方列表展示所有的演练记录信息,包括演练记录ID、执行状态、执行人、演练开始时间,演练结束时间等。
图12 演练记录
- 单击“进度查看”,进入“演练记录详情”页面,可以查看当前演练任务的攻击进度和攻击详情。
图13 攻击进度
- 单击右上角的“演练报告”,进入“演练报告”页面,可以创建或查看演练报告,具体参考演练报告章节。
图14 演练报告