更新时间:2024-07-17 GMT+08:00
分享

问题和检查项

企业在进行应用韧性设计的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有检查项,也是最佳实践建议,将在下一章节进行详细描述。

问题

检查项/最佳实践

RES01 您如何使用冗余技术确保应用系统的高可用?

  1. 应用组件高可用部署
  2. 应用组件多位置部署
  3. 云服务器反亲和

RES02 您如何备份应用程序中的关键数据?

  1. 识别和备份应用中所有需要备份的关键数据
  2. 自动数据备份
  3. 定期进行备份数据恢复

RES03 您如何对应用程序进行跨AZ灾难恢复?

  1. 集群跨AZ部署
  2. 跨AZ数据同步
  3. 对接容灾仲裁,支持自动切换
  4. 支持容灾管理

RES04 您如何对应用程序进行跨Region或跨云灾难恢复?

  1. 定义应用系统的容灾目标RPO与RTO
  2. 部署容灾系统以满足容灾目标
  3. 容灾恢复过程自动化
  4. 定期进行容灾演练,以检查恢复能否满足容灾目标

RES05 您如何保证网络高可用?

  1. 网络连接高可用
  2. 避免暴露不必要的网络地址
  3. 不同流量模型业务的网络共享带宽隔离
  4. 预留IP资源以便扩展和高可用

RES06您如何进行故障检测处理?

  1. 故障模式分析
  2. 面向所有故障进行检测
  3. 支持亚健康检测

RES07 您如何监控应用系统资源?

  1. 定义关键指标与阈值并监控
  2. 日志统计监控
  3. 监控到异常后发送消息通知
  4. 监控数据存储和分析
  5. 端到端跟踪请求消息

RES08 您如何减少依赖影响?

  1. 减少强依赖项
  2. 依赖采用松耦合
  3. 减少被依赖项故障的影响

RES09 您如何进行重试?

  1. API以及命令调用需要设计为可重试
  2. 客户端需要根据综合评估是否需要重试
  3. 重试需要避免造成流量压力

RES10 您如何进行故障隔离?

  1. 应用控制平面与数据平面隔离
  2. 应用系统多位置部署
  3. 采用Grid架构
  4. 健康检查与自动隔离

RES011 您如何进行可靠性测试?

  1. 混沌测试
  2. 压力负载测试
  3. 长稳测试
  4. 灾难演练
  5. 红蓝攻防

RES012 您如何进行应急恢复处理?

  1. 组建应急恢复团队
  2. 制定应急预案
  3. 定期应急恢复演练
  4. 出现问题后尽快恢复业务
  5. 应急恢复回溯

RES013 您如何进行过载保护以适应流量变化?

  1. 采用自动弹性扩缩容
  2. 应用系统负载均衡,避免流量不均匀
  3. 过载检测与流量控制
  4. 支持主动扩容
  5. 资源自动扩容考虑了配额限制
  6. 压力负载测试

RES14 您如何进行配置防差错?

  1. 变更防呆检查
  2. 自动化变更
  3. 变更前数据备份
  4. 提供runbook进行标准化变更

RES15 您如何进行升级不中断业务?

  1. 自动化部署和升级
  2. 自动化检查
  3. 自动化回滚
  4. 灰度部署和升级

相关文档