更新时间:2026-02-12 GMT+08:00
轻量算力集群监控告警方案
ModelArts 轻量算力集群会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况,并上报到应用运维管理AOM和云监控平台CES。整体监控告警方案如下图所示:

- AOM:ModelArts相关的监控指标,通过AOM进行上报;
- CES:部分AOM无法覆盖的节点指标,通过CES进行上报;
- SMN:告警规则关联SMN的通知主题,最后通过webhook连接完成订阅推送。
父主题: 配置监控告警