文档首页/
AI开发平台ModelArts/
最佳实践/
自动驾驶模型训练推理/
自动驾驶场景基于ModelArts Lite Cluster的标注解决方案/
配置监控告警/
Lite Cluster监控告警方案
更新时间:2025-12-15 GMT+08:00
Lite Cluster监控告警方案
ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况,并上报到应用运维管理AOM和云监控平台CES。整体监控告警方案如下图所示:

- AOM:ModelArts相关的监控指标,通过AOM进行上报;
- CES:部分AOM无法覆盖的节点指标,通过CES进行上报;
- SMN:告警规则关联SMN的通知主题,最后通过webhook连接完成订阅推送。
父主题: 配置监控告警