更新时间:2025-08-08 GMT+08:00

创建并管理故障模式

操作场景

故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。

注意事项

确认故障模式所属的企业项目、所属应用、事件级别、场景分类是否正确。

创建故障模式

  1. 登录云运维中心
  2. 在左侧导航栏选择“韧性中心 > 混沌演练”。
  3. 在“ 故障模式”页签,单击“创建故障模式”。
  4. 设置“创建故障模式”。

    表1 创建故障模式参数说明

    参数

    说明

    故障模式名称

    自定义故障模式名称。

    场景分类

    可选项“节点”、“集群”、“网络”、“容灾”、“容器”、“业务和数据”。

    • 节点:主机的CPU、内存过载或进程故障,从而会导致业务异常,如CPU、内存过载、进程状态异常等。
    • 集群:针对集群进行加压或倒换模拟异常场景,如容器集群进行加压、数据库集群进行主备倒换。
    • 网络:通过对主机或集群注入网络故障,验证服务的容灾能力,如链路层网络丢包、网络时延、闪断等。
    • 容灾:用于模拟区域间网络异常或单个区域服务不可用,验证业务的自恢复能力。
    • 容器:针对容器实例进行进程、资源类故障、网络类攻击,如CPU、内存加压;网络类攻击;系统OOM或进程杀死。
    • 业务和数据:用于模拟数据库或文件的异常导致的业务异常,如数据库表删除、数据库不可用等。

    事件级别

    可选项“P1”、“P2”、“P3”、“P4”、“P5”。

    严重程度默认“P1”最严重,“P5”最轻微。

    来源

    可选项“主动分析”,“已有故障”。

    • 主动分析:主动对应用架构、运行环境等进行风险分析后,形成故障模式。
    • 已有故障:从已经发生的故障和事件分析形成故障模式。

    告警ID

    可选参数,故障发生时曾触发过的告警ID。

    攻击场景

    可选参数,在下拉列表选择攻击场景。

    支持最多选择十个攻击场景。

    企业项目

    在下拉列表选择故障模式资源所属的企业项目。

    所属应用

    在下拉列表选择演练目标所属的应用。

    是否有应急预案

    可选项“是”、“否”。

    应急预案名称

    是否有应急预案为“是”时需要选择。

    在下拉列表选择应急预案。若没有合适的应急预案需要创建,请参考创建应急预案

    发生条件

    请填写故障可能发生的条件。

    限制长度最长1024个字符。

    预计故障现象

    请填写故障发生时可能的业务现象。

    限制长度最长1024个字符。

    客户影响

    请填写故障造成的客户影响。

    限制长度最长1024个字符。

  5. 单击“确定”。

    完成故障模式创建。

克隆故障模式

仅优秀故障模式案例中的故障模式支持克隆,优秀故障模式案例中的故障模式是云运维中心提供的预定义故障模式。

  1. 登录云运维中心
  2. 在左侧导航栏选择“韧性中心 > 混沌演练”。
  3. 单击“故障模式 > 优秀故障模式案例”。
  4. 选择需要克隆的故障模式,单击操作列“克隆”。
  5. 设置“克隆故障模式”。

    表2 克隆故障模式参数说明

    参数

    说明

    故障模式名称

    自定义故障模式名称。

    场景分类

    可选项“节点”、“集群”、“网络”、“容灾”、“容器”、“业务和数据”。

    • 节点:主机的CPU、内存过载或进程故障,从而会导致业务异常,如CPU、内存过载、进程状态异常等。
    • 集群:针对集群进行加压或倒换模拟异常场景,如容器集群进行加压、数据库集群进行主备倒换。
    • 网络:通过对主机或集群注入网络故障,验证服务的容灾能力,如链路层网络丢包、网络时延、闪断等。
    • 容灾:用于模拟区域间网络异常或单个区域服务不可用,验证业务的自恢复能力。
    • 容器:针对容器实例进行进程、资源类故障、网络类攻击,如CPU、内存加压;网络类攻击;系统OOM或进程杀死。
    • 业务和数据:用于模拟数据库或文件的异常导致的业务异常,如数据库表删除、数据库不可用等。

    事件级别

    可选项“P1”、“P2”、“P3”、“P4”、“P5”。

    严重程度默认“P1”最严重,“P5”最轻微。

    来源

    可选项“主动分析”,“已有故障”。

    • 主动分析:主动对应用架构、运行环境等进行风险分析后,形成故障模式。
    • 已有故障:从已经发生的故障和事件分析形成故障模式。

    告警ID

    可选参数,故障发生时曾触发过的告警ID。

    攻击场景

    可选参数,在下拉列表选择攻击场景。

    支持最多选择十个攻击场景。

    企业项目

    在下拉列表选择故障模式资源所属的企业项目。

    所属应用

    在下拉列表选择演练目标所属的应用。

    是否有应急预案

    可选项“是”、“否”。

    应急预案名称

    是否有应急预案为“是”时需要选择。

    在下拉列表选择应急预案。若没有合适的应急预案需要创建,请参考创建应急预案

    发生条件

    请填写故障可能发生的条件。

    限制长度1-1024个字符。

    预计故障现象

    请填写故障发生时可能的业务现象。

    限制长度1-1024个字符。

    客户影响

    请填写故障造成的客户影响。

    限制长度0-1024个字符。

  6. 单击“确定”。

    完成故障模式克隆。