更新时间:2024-07-16 GMT+08:00
分享

常见故障模式

BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高

  • 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率
  • 恢复:
    1. 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。
    2. 应用层进行过载保护,保障优先业务的运行。

连接后端BMS失败

  • 检测:网络连接失败。
  • 恢复:
    1. 至少部署2个后端BMS。对于无状态业务,配置ELB弹性负载均衡保障业务可靠性;对于有状态业务,由应用层实现多实例高可用。
    2. 应用层进行重试,以应对暂时性故障,如网络过载时;应用故障重试处理可参考“故障重试”。
    3. 当BMS由于过载导致网络限制时,可参考“BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高”的处理。

BMS实例不可用或运行异常

  • 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。
  • 恢复:针对每个应用层,配置多个BMS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个BMS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。

BMS实例或挂载的磁盘或数据被意外删除

  • 检测:NA
  • 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对BMS云硬盘进行定期备份,在数据被删除时使用备份数据快速恢复。

BMS实例物理服务器或本地盘故障

  • 检测:应用层检测物理服务器和本地盘运行状态
  • 恢复:应用层采用RAID实现BMS内硬盘高可用,并实现跨BMS的数据复制与高可用,以便在物理服务器或本地盘故障时业务可快速恢复。建议非必须使用本地盘场景,尽可能使用EVS云硬盘,以提升硬盘的可靠性。
分享:

    相关文档

    相关产品