更新时间:2024-07-16 GMT+08:00
分享

常见故障模式

CPU /内存/磁盘/带宽使用率过高

  • 检测:通过CES监控CPU /内存/磁盘/带宽使用率。
  • 恢复:
    1. 当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。
    2. 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。
    3. 当带宽使用率高时,可根据业务情况,变更规格以支持更大带宽。
    4. 应用层进行过载保护,保障优先业务的运行。

生产消息失败

  • 检测:生产消息失败
  • 恢复:
    1. 应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。
    2. 当多次重试后仍无法写入成功,可将数据写入本地缓存,待服务可用后再写入实例。
    3. 当实例由于过载导致网络限制时,可参考“CPU /内存/带宽使用率过高”的处理。

相关文档