更新时间:2025-11-18 GMT+08:00

训练大盘监控

场景描述

在使用ModelArts进行模型训练时,用户需要实时监控训练任务的运行状态,以确保训练过程的顺利进行。然而,有时用户可能需要更详细的数据分析和管理,而不仅仅是实时监控。为此,ModelArts管理控制台提供了全面的监控和数据导出功能。通过导航至“模型训练 > 训练作业 > 大盘监控”,用户可以一站式查看训练作业的概览、健康监测和综合监控情况,实时掌握训练任务的运行状态。此外,用户还可以单击页面上的“导出”按钮,选择需要的监控数据,将其下载到本地,以便进行进一步的分析和管理。通过这些功能,用户不仅能够实时监控训练任务的运行状态,还能获取详细的监控数据,从而更好地管理和优化训练过程。

约束限制

训练大盘监控最多支持查看近1年的监控数据。

训练作业概览

训练作业概览模块提供作业总数、当前资源请求量及各状态作业数量的全局视图,便于快速掌握训练整体状况与资源负荷。

指标名称

说明

作业总数

账号在当前工作空间下所有训练作业的总数,展示整体作业规模。

当前资源请求量(卡)

当前运行中的所有训练作业申请的加速卡总数,体现实时资源需求。

各个作业状态对应的作业数量

分别展示处于不同状态(如“等待中”、“运行中”、“已完成”、“异常/失败”等)的作业数量,用于监控作业健康度与分布。

健康监测

健康检测模块专注于训练作业的稳定性与可靠性管理,通过量化评估作业执行结果和系统容错能力,为运维决策提供关键依据。

指标名称

说明

作业运行成功率

在统计周期内,成功完成的作业数量占全部作业数量的比例。

故障恢复开启率

在统计周期内,容错与恢复功能开启的作业数量占全部作业数量的比例。

作业恢复成功率

在统计周期内,在作业运行出现异常或中断后,作业成功拉起并使用加速卡的事件数量占成功和失败恢复事件数量的比例。

作业综合监控

作业综合监控分为作业故障监控和作业资源消耗两部分。用户可以选择最近7天、最近30天和自定义时间查看对应的监控数据。

作业故障监控

表1 作业故障监控

指标名称

说明

作业失败率

在统计周期内,运行失败的作业数量占全部作业数量的比例。

作业恢复成功率

在统计周期内,在作业运行出现异常或中断后,作业成功拉起并使用加速卡的事件数量占成功和失败恢复事件数量的比例。

作业恢复时长

在统计周期内,在作业运行出现异常或中断后,从发现问题到将作业成功拉起并使用加速卡所经历的时间长度。

作业资源消耗

表2 作业资源消耗

指标名称

说明

资源消耗趋势

在统计周期内,训练作业对各类计算资源的请求量,支持按NPU、GPU筛选。

资源消耗TOP作业

在统计周期内,对各类计算资源请求量最高的训练作业,支持按NPU、GPU、CPU筛选。