更新时间:2024-07-16 GMT+08:00
分享

常见故障模式

CCE集群的CPU /内存/磁盘容量使用率过高

  • 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。
  • 恢复:
    1. 根据业务情况,手工变更集群规格或扩展资源。

CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高

  • 检测:通过AOM监控CCE节点的CPU/内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率。
  • 恢复:
    1. 根据业务情况,手工变更节点规格或增加节点数量。

CCE工作负载的CPU /内存/GPU/GPU缓存使用率过高

  • 检测:通过AOM监控CCE工作负载的CPU/内存/GPU/GPU缓存使用率。
  • 恢复:
    1. 根据业务情况,手工调整工作负载的资源配额或增加工作负载个数。

相关文档