更新时间:2025-11-13 GMT+08:00
分享

监控报表

在监控报表页面可查看平台的数据资产、服务模块(训练服务、数据服务)、计算资源的信息。

进入监控报表页面:

登录Octopus服务平台,在左侧菜单栏中单击“运维配置”再选择“监控报表”页签。

表1 报表页面说明

序号

区域名称

说明

1

数据资产

统计不同工作空间下镜像仓库总数、镜像版本总数、模型仓库总数、模型版本总数、数据集总数、数据集总大小。

2

服务模块

  • 训练服务模块:统计不同工作空间下总GPU算力用量、总GPU集群算力利用率、开发环境总数、开发环境总时长、开发环境GPU算力用量、训练任务总数、训练任务总时长、训练任务GPU算力用量、推理服务总数、推理服务总时长、推理服务GPU算力用量。
  • 数据服务模块:统计不同工作空间下自动驾驶总里程、采集数据总量、数据处理任务总数、数据处理任务总时长。

3

计算资源

统计ModelArts集群中各个节点的平均CPU使用率、最大CPU使用率、平均内存使用率、最大内存使用率、平均GPU利用率(如果节点包含GPU资源)、最大GPU利用率(如果节点包含GPU资源)、平均NPU利用率(如果节点包含NPU资源)、最大NPU利用率(如果节点包含NPU资源)、平均显存利用率(如果节点包含GPU或NPU资源)、最大显存利用率(如果节点包含GPU或NPU资源)。

相关文档