更新时间:2024-07-16 GMT+08:00
常见故障模式
BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高
- 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率
- 恢复:
- 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。
- 应用层进行过载保护,保障优先业务的运行。
连接后端BMS失败
- 检测:网络连接失败。
- 恢复:
- 至少部署2个后端BMS。对于无状态业务,配置ELB弹性负载均衡保障业务可靠性;对于有状态业务,由应用层实现多实例高可用。
- 应用层进行重试,以应对暂时性故障,如网络过载时;应用故障重试处理可参考“故障重试”。
- 当BMS由于过载导致网络限制时,可参考“BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高”的处理。
BMS实例不可用或运行异常
- 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。
- 恢复:针对每个应用层,配置多个BMS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个BMS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。
BMS实例或挂载的磁盘或数据被意外删除
- 检测:NA
- 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对BMS云硬盘进行定期备份,在数据被删除时使用备份数据快速恢复。
BMS实例物理服务器或本地盘故障
- 检测:应用层检测物理服务器和本地盘运行状态
- 恢复:应用层采用RAID实现BMS内硬盘高可用,并实现跨BMS的数据复制与高可用,以便在物理服务器或本地盘故障时业务可快速恢复。建议非必须使用本地盘场景,尽可能使用EVS云硬盘,以提升硬盘的可靠性。
父主题: BMS裸金属服务