更新时间:2025-12-15 GMT+08:00
分享

默认监控告警

模型在进行训练时,需要重点关注系统资源的使用情况,例如:NPU,CPU,存储。

当前AOM服务可以监控上述系统资源,同时支持设置告警规则,关键指标如表1 指标查看与告警配置建议所示。

表1 指标查看与告警配置建议

分类

关键指标

告警阈值

参考文档

NPU

AI处理器HBM内存利用率

连续2个周期原始值 > 98%

通过AOM查看ModelArts监控指标

创建指标告警

CPU

CPU使用率

连续2个周期原始值 > 90%

存储

cache空间的使用率

连续2个周期原始值 > 90%

容器空间的使用率

连续2个周期原始值 > 90%

内存

物理内存使用率

连续2个周期原始值 > 90%

文件系统

文件系统使用率

连续2个周期原始值 > 90%

相关文档