ModelArts Standard资源监控概述
为了满足用户对资源使用的监控诉求,ModelArts Standard提供了多种监控查看方式。
- 方式一:通过ModelArts Standard控制台查看
您在可通过ModelArts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面:
- 通过ModelArts控制台的总览页查看,具体请参见通过ModelArts控制台查看监控指标。
- Standard训练作业:用户在运行训练作业时,可以查看训练作业占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。
- Standard在线服务:用户将模型部署为在线服务后,可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计,具体参见查看推理服务详情章节。
- 方式二:通过AOM查看所有监控指标
ModelArts Standard上报的所有监控指标都保存在AOM中,用户可以通过AOM服务提供的指标消费和使用的能力来进行指标消费。设置指标阈值告警、告警上报等,都可以直接在AOM控制台查看。具体参见通过AOM控制台查看ModelArts所有监控指标。
- 方式三:通过Grafana查看所有监控指标
当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。
将Grafana的数据源配置完成后,就可以通过Grafana查看AOM保存的所有ModelArts Standard的所有指标。具体参见使用Grafana查看AOM中的监控指标。
通过Grafana插件查看AOM中的监控指标的操作流程如下:
- 安装配置Grafana
安装配置Grafana有在Windows上安装配置Grafana、在Linux上安装配置Grafana和在Notebook上安装配置Grafana三种方式,请您根据实际情况选择。
- 配置Grafana数据源
- 配置仪表盘查看指标数据
- 安装配置Grafana