更新时间:2025-12-15 GMT+08:00
分享

Lite Cluster监控告警方案

ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况,并上报到应用运维管理AOM和云监控平台CES。整体监控告警方案如下图所示:

  • AOM:ModelArts相关的监控指标,通过AOM进行上报;
  • CES:部分AOM无法覆盖的节点指标,通过CES进行上报;
  • SMN:告警规则关联SMN的通知主题,最后通过webhook连接完成订阅推送。

相关文档