更新时间:2024-07-16 GMT+08:00
常见故障模式
CCE集群的CPU /内存/磁盘容量使用率过高
- 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。
- 恢复:
- 根据业务情况,手工变更集群规格或扩展资源。
CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高
- 检测:通过AOM监控CCE节点的CPU/内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率。
- 恢复:
- 根据业务情况,手工变更节点规格或增加节点数量。
CCE工作负载的CPU /内存/GPU/GPU缓存使用率过高
- 检测:通过AOM监控CCE工作负载的CPU/内存/GPU/GPU缓存使用率。
- 恢复:
- 根据业务情况,手工调整工作负载的资源配额或增加工作负载个数。
父主题: CCE云容器引擎