更新时间:2025-08-07 GMT+08:00
训练作业流程可视化
场景描述
在机器学习训练过程中,用户通常需要监控训练作业的执行状态。然而,传统的监控方式往往难以提供全面的作业运行信息,导致用户无法及时掌握训练进度。通过作业流程可视化功能模块,用户可以实时查看训练作业的详细运行状态。该功能支持多维度的信息展示,包括作业调度情况、环境准备状态以及作业执行进度等关键环节。用户只需进入可视化界面,即可一目了然地掌握训练作业的全生命周期信息,从而更精准地进行进度跟踪和参数调整,有效提升训练效率和用户体验。
约束限制
作业流程主阶段信息固定,但子阶段信息不固定,例如“环境准备”中的子阶段“训练输入下载中”,若训练作业无输入,则该子阶段不存在;例如若“初始化环境预检中”事件丢失,则“作业运行”中的子阶段“初始化环境预检中”子阶段不存在。
训练作业流程可视化查看
当前ModelArts Standard训练作业模块在训练作业详情页的顶部,展示了作业流程详情,共有四个主阶段信息:作业调度 > 环境准备 > 作业运行 > 作业结束。
每个主阶段,可以查看具体子阶段流程信息。
- 作业调度:记录作业创建情况(成功与失败),作业调度情况,发生的日期与时间等信息。
- 环境准备:记录环境准备的相关内容,例如作业环境开始准备、初始化环境预检、训练代码下载中、作业环境准备完成等关键步骤的发生的日期与时间等信息。
- 作业运行:记录作业运行相关内容,例如训练作业开始启动、训练作业执行完成等关键步骤的发生的日期与时间等信息。
- 作业结束:记录作业运行结果等关键步骤的发生的日期与时间等信息。
作业流程右上部,单击“历史记录”,可以查看该作业的所有流程记录,例如发生多次抢占,作业重新调度,作业流程多次重新开始,则可以查看每次作业运行的具体流程信息。
图1 作业流程

父主题: 管理模型训练作业