管理故障模式
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。
故障模式和演练任务的关系
故障模式与演练任务是混沌演练体系中紧密衔接、层层递进的核心环节,二者构成 “风险前置识别” 与 “实现化验证” 的闭环关系:
故障模式聚焦于云应用的风险研判,通过系统性评估应用架构、依赖关系及潜在薄弱点,准确识别可能引发服务异常的风险场景(如节点宕机、网络延迟、资源耗尽等),是混沌演练开展的核心前提与依据。
而演练任务则是故障模式的 “实现化落地载体”,它基于已识别的故障模式,将单一或关联的故障场景进行合理组合与场景化设计,再通过故障注入工具(如模拟服务器下线、注入流量拥塞等)复现对应风险,最终验证应用的容错能力、故障自愈效率及应急预案有效性,实现从 “风险识别” 到 “能力验证” 的转化。
注意事项
确认故障模式所属的企业项目、所属应用、事件级别、场景分类是否正确。
创建故障模式
- 登录云运维中心。
- 在左侧导航栏选择“韧性中心 > 混沌演练”。
- 在“ 故障模式”页签,单击“创建故障模式”,进入创建故障模式页面。
- 在创建故障模式页面,设置故障模式相关信息。
表1 创建故障模式参数说明 参数
说明
故障模式名称
自定义故障模式名称。
名称由中文、字母、数字、中划线、下划线和空格组成,且不能以空格开头或结尾,长度不能超过64个字符。
场景分类
可选项“节点”、“集群”、“网络”、“容灾”、“容器”和“业务和数据”。
- 节点:主机的CPU、内存过载或进程故障,从而会导致业务异常,如CPU、内存过载、进程状态异常等。
- 集群:针对集群进行加压或倒换模拟异常场景,如容器集群进行加压、数据库集群进行主备倒换。
- 网络:通过对主机或集群注入网络故障,验证服务的容灾能力,如链路层网络丢包、网络时延、闪断等。
- 容灾:用于模拟区域间网络异常或单个区域服务不可用,验证业务的自恢复能力。
- 容器:针对容器实例进行进程、资源类故障、网络类攻击,如CPU、内存加压;网络类攻击;系统OOM或进程杀死。
- 业务和数据:用于模拟数据库或文件的异常导致的业务异常,如数据库表删除、数据库不可用等。
事件级别
可选项“P1”、“P2”、“P3”、“P4”、“P5”。
严重程度默认“P1”最严重,“P5”最轻微。
来源
可选项“主动分析”,“已有故障”。
- 主动分析:主动对应用架构、运行环境等进行风险分析后,形成故障模式。
- 已有故障:从已经发生的故障和事件分析形成故障模式。
告警ID
可选参数,故障发生时曾触发过的告警ID。
攻击场景
可选参数,在下拉列表选择攻击场景。
支持最多选择十个攻击场景。
企业项目
选择故障模式资源所属的企业项目。
- 单击下拉列表,可以选择使用已有企业项目。
- 单击“新建企业项目”,可以参考创建企业项目创建并选择使用新建的企业项目。
故障模式创建成功后,不支持更改企业项目。
所属应用
在下拉列表选择演练目标所属的应用。
- 单击下拉列表,可以选择使用已有应用。
- 单击“创建应用”,可以参考创建应用创建并选择使用新建的应用。
是否有应急预案
可选项“是”、“否”。
应急预案名称
是“否有应急预案”选择“是”时需要设置。
- 单击下拉列表,可以选择使用已有应急预案。
- 单击“创建应急预案”,可以参考创建应急预案创建并选择新建的应急预案。
发生条件
请填写故障可能发生的条件。
限制长度最长1024个字符。
预计故障现象
请填写故障发生时可能的业务现象。
限制长度最长1024个字符。
客户影响
可选参数,请填写故障造成的客户影响。
限制长度最长1024个字符。
- 单击“确定”,完成故障模式创建。
故障模式创建成功后,可在自定义故障模式列表中查看。
克隆故障模式
用户可通过克隆的方式,快速生成自定义故障模式,大幅降低个性化故障模式的创建成本。
仅预置故障模式案例中的故障模式支持克隆。
- 登录云运维中心。
- 在左侧导航栏选择“韧性中心 > 混沌演练”。
- 在“故障模式 > 预置故障模式案例”页签中,选择需要克隆的故障模式,单击操作列“克隆”。
- 根据业务场景调整故障模式信息。
表2 克隆故障模式参数说明 参数
说明
故障模式名称
自定义故障模式名称。
名称由中文、字母、数字、中划线、下划线和空格组成,且不能以空格开头或结尾,长度不能超过64个字符。
场景分类
可选项“节点”、“集群”、“网络”、“容灾”、“容器”、“业务和数据”。
- 节点:主机的CPU、内存过载或进程故障,从而会导致业务异常,如CPU、内存过载、进程状态异常等。
- 集群:针对集群进行加压或倒换模拟异常场景,如容器集群进行加压、数据库集群进行主备倒换。
- 网络:通过对主机或集群注入网络故障,验证服务的容灾能力,如链路层网络丢包、网络时延、闪断等。
- 容灾:用于模拟区域间网络异常或单个区域服务不可用,验证业务的自恢复能力。
- 容器:针对容器实例进行进程、资源类故障、网络类攻击,如CPU、内存加压;网络类攻击;系统OOM或进程终止。
- 业务和数据:用于模拟数据库或文件的异常导致的业务异常,如数据库表删除、数据库不可用等。
事件级别
可选项“P1”、“P2”、“P3”、“P4”、“P5”。
严重程度默认“P1”最严重,“P5”最轻微。
来源
可选项“主动分析”,“已有故障”。
- 主动分析:主动对应用架构、运行环境等进行风险分析后,形成故障模式。
- 已有故障:从已经发生的故障和事件分析形成故障模式。
告警ID
可选参数,故障发生时曾触发过的告警ID。
攻击场景
可选参数,在下拉列表选择攻击场景。
支持最多选择十个攻击场景。
企业项目
在下拉列表选择故障模式资源所属的企业项目。
故障模式克隆成功后,不支持更改企业项目。
所属应用
在下拉列表选择演练目标所属的应用。
是否有应急预案
可选项“是”、“否”。
应急预案名称
是否有应急预案为“是”时需要选择。
在下拉列表选择应急预案。若没有合适的应急预案需要创建,请参考创建应急预案。
发生条件
请填写故障可能发生的条件。
限制长度1-1024个字符。
预计故障现象
请填写故障发生时可能的业务现象。
限制长度1-1024个字符。
客户影响
请填写故障造成的客户影响。
限制长度0-1024个字符。
- 单击“确定”,完成故障模式克隆。
故障模式克隆成功后,可在自定义故障模式列表中查看。
修改自定义故障模式
仅自定义故障模式支持修改。
- 登录云运维中心。
- 在左侧导航栏选择“韧性中心 > 混沌演练”。
- 在“故障模式 > 自定义故障模式”,选择需要修改的故障模式,单击操作列“修改”。
- 根据业务需求更新故障模式信息。
表3 故障模式参数说明 参数
说明
故障模式名称
自定义故障模式名称。
名称由中文、字母、数字、中划线、下划线和空格组成,且不能以空格开头或结尾,长度不能超过64个字符。
场景分类
可选项“节点”、“集群”、“网络”、“容灾”、“容器”、“业务和数据”。
- 节点:主机的CPU、内存过载或进程故障,从而会导致业务异常,如CPU、内存过载、进程状态异常等。
- 集群:针对集群进行加压或倒换模拟异常场景,如容器集群进行加压、数据库集群进行主备倒换。
- 网络:通过对主机或集群注入网络故障,验证服务的容灾能力,如链路层网络丢包、网络时延、闪断等。
- 容灾:用于模拟区域间网络异常或单个区域服务不可用,验证业务的自恢复能力。
- 容器:针对容器实例进行进程、资源类故障、网络类攻击,如CPU、内存加压;网络类攻击;系统OOM或进程终止。
- 业务和数据:用于模拟数据库或文件的异常导致的业务异常,如数据库表删除、数据库不可用等。
事件级别
可选项“P1”、“P2”、“P3”、“P4”、“P5”。
严重程度默认“P1”最严重,“P5”最轻微。
来源
可选项“主动分析”,“已有故障”。
- 主动分析:主动对应用架构、运行环境等进行风险分析后,形成故障模式。
- 已有故障:从已经发生的故障和事件分析形成故障模式。
告警ID
可选参数,故障发生时曾触发过的告警ID。
攻击场景
可选参数,在下拉列表选择攻击场景。
支持最多选择十个攻击场景。
企业项目
故障模式创建成功后,不支持更改企业项目。
所属应用
在下拉列表选择演练目标所属的应用。
是否有应急预案
可选项“是”、“否”。
应急预案名称
是否有应急预案为“是”时需要选择。
在下拉列表选择应急预案。若没有合适的应急预案需要创建,请参考创建应急预案。
发生条件
请填写故障可能发生的条件。
限制长度1-1024个字符。
预计故障现象
请填写故障发生时可能的业务现象。
限制长度1-1024个字符。
客户影响
请填写故障造成的客户影响。
限制长度0-1024个字符。
- 单击“确定”,完成故障模式修改。