更新时间:2025-09-08 GMT+08:00
分享

在CCE、AOM中查看指标并配置告警

AOM服务可监控推理层中的CCE、Lite Cluster指标,同时支持设置告警规则,用户可自定义监控目标与通知策略。

表1 指标查看与告警配置建议

组件

关键指标

告警阈值

参考文档

CCE

Pod频繁重启

/

通过告警中心一键配置告警

Deployment副本数不匹配

/

节点磁盘空间不足

/

Lite Cluster

NPU使用率

连续2个周期原始值 > 95%

使用AOM查看Lite Cluster监控指标按全量指标创建指标告警规则

NPU显存使用率

连续2个周期原始值 > 98%

AI处理器健康状态

连续2个周期原始值为0

物理内存使用率

连续2个周期原始值 > 95%

相关文档