更新时间:2026-06-30 GMT+08:00
分享

查看训练详情

场景描述

在使用CloudRobo平台的模型训练功能时,您可能需要查看当前正在进行的训练作业列表及其详细信息,以确保训练过程顺利进行。

通过作业列表页面,您可以轻松掌握每个作业的状态,调整列表展示内容,根据需要的属性类型进行筛选过滤,快速查找训练作业。

单击具体作业,进入详情页后,您可以查看作业流程、具体配置信息,以及该作业的事件、日志、监控和训练指标信息。此外,您还可以在详情页进行日志的查看和下载。

查看训练作业列表

  1. 登录CloudRobo控制台
  2. 在左侧导航栏中,选择模型开发 > 模型训练,进入“模型训练”页面。

    • 在列表界面可以查看作业名称/ID、状态、训练方式、来源模型、资源规格、运行记录、最新创建时间和创建者等信息。部分列支持筛选或排序查看。单击作业搜索框右侧的可对作业列表展示内容进行设置和调整。
    • 用户可以通过选择“全部”或者“我创建的”快速过滤可见的作业列表范围。
    • 在训练作业列表上方的搜索框中,根据您需要的属性类型,例如名称、状态、训练方式等进行筛选过滤,快速查找训练作业。
    • 可以在列表页最右侧的“操作”列,对作业进行重训、编辑草稿、停止或删除等操作。

训练作业流程可视化

在机器学习训练过程中,用户通常需要监控训练作业的执行状态。然而,传统的监控方式往往难以提供全面的作业运行信息,导致用户无法及时掌握训练进度。通过作业流程可视化功能模块,用户可以实时查看训练作业的详细运行状态。该功能支持多维度的信息展示,包括作业调度情况、环境准备状态以及作业运行进度等关键环节。用户只需进入可视化界面,即可一目了然地掌握训练作业的全生命周期信息,从而更精准地进行进度跟踪和参数调整,有效提升训练效率和用户体验。

当前CloudRobo训练作业模块在训练作业详情页的顶部,展示了作业流程详情,共有四个主阶段信息:作业调度 > 环境准备 > 作业运行 > 作业结束。

每个主阶段,可以查看具体子阶段流程信息。

  • 作业调度:记录作业创建情况(成功与失败),作业调度情况,发生的日期与时间等信息。
  • 环境准备:记录环境准备的相关内容,例如作业环境开始准备、初始化环境预检、训练代码下载中、作业环境准备完成等关键步骤的发生的日期与时间等信息。
  • 作业运行:记录作业运行相关内容,例如训练作业开始启动、训练作业执行完成等关键步骤的发生的日期与时间等信息。
  • 作业结束:记录作业运行结果等关键步骤的发生的日期与时间等信息。

    作业流程主阶段信息固定,但子阶段信息不固定,例如“环境准备”中的子阶段“训练输入下载中”,如果训练作业无输入,则该子阶段不存在;例如:如果“初始化环境预检中”事件丢失,则“作业运行”中的子阶段“初始化环境预检中”子阶段不存在。

查看训练作业概览

  1. 登录CloudRobo控制台
  2. 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
  3. 在训练作业列表中,单击作业名称进入训练作业详情页面。
  4. 在训练作业详情页面,单击“概览”页签查看作业配置信息。包含基础信息、数据配置、启动命令、环境变量、超参配置、资源配置等信息。

查看训练作业监控指标

在训练作业运行过程中,用户可通过指标监控可以实时掌握训练作业的进度,了解模型在不同阶段的训练状态。

  1. 登录CloudRobo控制台
  2. 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
  3. 在训练作业列表中,单击作业名称进入训练作业详情页面。
  4. 在训练作业详情页面,单击“监控”页签查看训练作业占用的CPU、内存、NPU以及NPU显存使用情况,网络IO上/下行速率、磁盘写入/读取速率等监控指标。

查看训练作业指标

在训练作业运行过程中,用户能在模型训练查看到训练作业指标,即可了解该训练作业的训练状态。

  1. 登录CloudRobo控制台
  2. 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
  3. 在训练作业列表中,单击作业名称进入训练作业详情页面。
  4. 在训练作业详情页面,单击“训练指标”页签查看训练作业的训练指标。

    训练指标是各个模型预置,每个模型预置的指标有所区别。

查看训练作业日志

训练日志用于记录训练作业运行过程和异常信息,可以通过查看训练作业日志定位作业运行中出现的问题。

当在CloudRobo中遇到训练作业问题时,用户可以通过查看日志中的报错信息直接定位大多数问题。

在训练作业详情页,日志页签提供日志预览和日志下载能力。

  • 预览日志
  1. 登录CloudRobo控制台
  2. 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
  3. 在训练作业列表中,单击作业名称进入训练作业详情页面。
  4. 在训练作业详情页面,单击“日志”页签查看日志。

    界面默认显示“用户日志”,可以根据需要选择“系统日志”“全量日志”查看日志详情。

    • 用户日志:用户训练代码的标准输出。
    • 系统日志:CloudRobo平台产生的系统日志,主要用于运维人员定位平台问题。
    • 全量日志:包括用户日志和系统日志。

  • 下载日志

    如果用户需要永久保存日志,请单击日志窗口右上角“下载”按钮下载日志至本地保存,支持批量下载多节点日志。用户也可以在创建训练作业时打开“指定日志保存路径”按钮,保存训练日志至指定OBS路径。

    下载日志时默认下载全量日志。

查看训练作业事件

在训练作业的整个生命周期中,从用户可见的开始阶段起,系统后台会记录每一个关键事件点,用户可以随时在对应训练作业的详情页面查看这些记录。用户能够清晰地了解训练作业的进展和状态,确保信息的透明度和可追溯性。

事件保留周期为30天,30天后自动清理数据。

  1. 登录CloudRobo控制台
  2. 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
  3. 在训练作业列表中,单击作业名称进入训练作业详情页面。
  4. 在训练作业详情页面,单击“事件”页签查看事件类型、事件信息、事件发生时间等信息。

    在事件列表上方的搜索框中,根据您需要的事件信息,例如事件等级、事件信息进行筛选过滤,快速查找事件。

相关文档