RES06-01 故障模式分析

故障模式分析是在系统分析和设计过程，通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析，并把每一种潜在故障模式按它的严酷度予以分类，找出单点故障和产品的薄弱环节，提出可以采取的预防改进措施，以提高产品可靠性的一种设计方法。

当应用系统部署在华为云中时，华为云提供了基础设施的故障管理，应用系统可减少对机房、电力、环境、计算服务器、存储设备、网络交换机等基础设施的故障模式的检测和恢复处理，但仍需考虑这些基础设施故障对应用系统的影响及对应的恢复措施，如机房发生灾难(AZ或Region级灾难)、计算服务器故障/重启、使用本地硬盘时硬盘故障/亚健康、网络通信中断/丢包等。而对于应用自身相关的故障模式，如软件系统类、数据类、通信类、负荷过载、人因差错等类型的故障，更需要充分分析并提供检测和恢复措施。

风险等级
高
关键策略
针对每种故障模式，分析其发生的频率以及造成的影响，以确定严酷度等级。对于存在单点故障的组件对应的故障模式，严酷度必须设置为高。云服务通用的故障模式有：CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。
1. 定义严酷度类别
   严酷度是度量故障给系统造成的最坏潜在后果，一般分为四个等级：Ⅰ类（严重）、Ⅱ类（较严重）、Ⅲ类（一般）、Ⅳ类（轻微）。
  - I类：这种故障会导致整个系统崩溃或主要功能受到严重影响；
  - II类：这种故障会导致系统主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患；
  - III类：系统次要功能丧失或下降，须立即修理，但不影响系统主要功能实现的故障；
  - IV类：部分次要功能下降，只需一般维护的，不对功能实现造成影响（一般告警或指示灯故障等）。
  其中，I～II类故障通常称为重大故障，也即“单点故障”，它们的区别主要是I类故障可能涉及到安全性问题，或者I类故障是所有/大部分功能丧失。II类故障指主要功能受影响。III类故障可简单理解为需要尽快修复的故障。
  
  通常来说，当一个故障不能被检测出来时，会认为这是一个故障“隐患”，相应的故障严酷度级别上升一级。
2. 标识系统中的所有组件及功能模块
   明确应用系统涉及的所有组件，以及外部依赖项，如提供者、第三方服务等。
3. 识别故障点
   对于每个组件，标识可能发生的潜在故障。单个组件可能具有多种故障模式，需要针对不同故障模式分别分析。故障模式的种类需要尽可能完备，若出现遗漏，可能导致该故障在设计中不被考虑，而没有进行监控和恢复处理。
4. 故障影响范围分析(爆炸半径)
  针对每种故障模式，分析其发生的频率以及造成的影响，以确定严酷度等级。对于存在单点故障的组件对应的故障模式，严酷度必须设置为高。云服务通用的故障模式有：CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。
5. 提供故障检测和缓解措施
6. 针对每种故障模式，需要分析如何检测和恢复，提出改进建议措施，并在系统复杂度和成本之间进行综合考虑，优先解决严酷度高的故障模式。
相关云服务和工具
- 云运维中心 COC：支持故障模式管理。