在CCE、AOM中查看指标并配置告警
AOM服务可监控推理层中的CCE、Lite Cluster指标,同时支持设置告警规则,用户可自定义监控目标与通知策略。
组件 |
关键指标 |
告警阈值 |
参考文档 |
---|---|---|---|
CCE |
Pod频繁重启 |
/ |
|
Deployment副本数不匹配 |
/ |
||
节点磁盘空间不足 |
/ |
||
Lite Cluster |
NPU使用率 |
连续2个周期原始值 > 95% |
|
NPU显存使用率 |
连续2个周期原始值 > 98% |
||
AI处理器健康状态 |
连续2个周期原始值为0 |
||
物理内存使用率 |
连续2个周期原始值 > 95% |