检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
950808 转 1
预约咨询
工单提交
我有建议
未实名认证
已实名认证
分享文档到微博
复制链接到剪贴板
链接复制成功!
模型在进行训练时,需要重点关注系统资源的使用情况,例如:NPU,CPU,存储。
当前AOM服务可以监控上述系统资源,同时支持设置告警规则,关键指标如表1 指标查看与告警配置建议所示。
分类
关键指标
告警阈值
参考文档
NPU
AI处理器HBM内存利用率
连续2个周期原始值 > 98%
通过AOM查看ModelArts监控指标
创建指标告警
CPU
CPU使用率
连续2个周期原始值 > 90%
存储
cache空间的使用率
容器空间的使用率
内存
物理内存使用率
文件系统
文件系统使用率
上一篇:资源监控、配置告警
下一篇:自定义监控指标
在使用文档中是否遇到以下问题
意见反馈(选填)
请至少选择一项反馈信息并填写问题反馈
字符长度不能超过500
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨