更新时间:2026-03-13 GMT+08:00
分享

查看训练作业列表和详情(新版)

场景描述

本章节内容仅适用于“西南-贵阳一”站点。控制台界面为新版样式。

在使用ModelArts平台的模型训练功能时,您可能需要查看当前正在进行的训练作业列表及其详细信息,以确保训练过程顺利进行。

通过作业列表页面,您可以轻松掌握每个作业的状态,调整列表展示内容,根据需要的属性类型进行筛选过滤,快速查找训练作业。

单击作业名称,进入查看精调作业详情页或查看自定义作业详情页,查看详细信息。

查看训练作业列表

  1. 登录ModelArts管理控制台
  2. 在左侧导航栏中,选择模型开发与训练 > 模型训练,进入“训练作业”列表。
    • 在列表界面可以查看作业名称/ID、状态、优先级、训练模式、进度、运行时长、标签、创建时间、创建者和描述等信息。部分列支持筛选或排序查看。单击作业搜索框右侧的可对作业列表展示内容进行设置和调整。
    • 用户可以通过选择“全部”或者“我创建的”和最近天数(或自定义)快速过滤可见的作业列表范围。
    • 在训练作业列表上方的搜索框中,根据您需要的属性类型,例如名称、ID、状态、训练模式等进行筛选过滤,快速查找训练作业。
    • 可以在列表页最右侧的“操作”列,对作业进行克隆、终止或删除等操作。
  3. “训练作业”列表中,根据“训练模式”列展示的“精调-微调”或“自定义”进行作业筛选。单击作业名称,进入查看精调作业详情页或查看自定义作业详情页,查看详细信息。

查看精调作业详情

“模型训练”列表中,筛选“训练模式”为“精调-微调”单击作业名称,进入精调训练作业详情页。模型训练详情包含模型产出、任务详情、事件、日志、资源占用标签页。模型详情页面右上角支持根据模型不同状态对精调任务做“克隆”、“删除”、“重试”等操作。

精调作业详情页展示的分类和功能介绍如下:

  • 模型产出

    模型产出支持查看模型如下参数:

    训练类型及训练目标:查询当前精调任务训练类型及训练目标。

    训练损失值:展示训练损失值坐标,通过坐标可观测训练模型是否达到要求。

    模型资产信息:模型精调完成后,需要发布为资产才能在后续使用该模型。发布后的模型可以通过“查看资产”可跳转至精调后的模型详情页面。对于相同模型的不同版本,支持在模型详情页面查看发布为资产的不同版本。

    图1 模型产出
  • 任务详情
    任务详情支持查看模型精调任务时的配置信息。包含基本信息、数据集信息、训练配置、资源配置、以及工作流 节点详情,具体配置信息可以参考步骤二:配置精调参数章节的参数说明。
    图2 任务详情
  • 事件

    事件包含精调任务运行时的各种事件上报,便于用户了解模型精调的各个阶段是否有异常。

    图3 事件
  • 日志

    日志包含精调任务运行时的关键,便于用户了解模型精调的各个阶段是否有异常,以及增强问题定位的手段。

    图4 日志
  • 资源占用
    用于统计任务运行期各项指标,包含CPU、NPU、文件系统各项的使用情况。
    图5 资源占用

查看自定义作业详情

“训练作业”列表中,筛选“训练模式”为“自定义”单击作业名称,进入自定义训练作业详情页。

自定义作业详情页展示的分类和功能介绍如下:

表1 自定义作业详情页展示的分类和功能

分类

说明

任务详情

作业的基本信息。

事件

日志

训练日志记录了训练作业的运行过程和异常信息,帮助用户快速定位作业运行中出现的问题。用户代码中的标准输出和标准错误信息都会在训练日志中显示。

Cloud Shell

ModelArts提供了Cloud Shell,可以登录运行中的容器,用于调试生产环境的训练作业。

监控

用户可以通过监控功能查看训练作业资源占用情况查看训练作业监控指标,快速掌握训练作业运行情况。

  • 查看训练作业资源占用情况

    当前ModelArts训练作业模块在训练作业详情页的“监控”页签中提供了训练作业的资源使用情况监控,可以查看当前训练作业整体或单个节点占用的CPU、GPU或NPU资源使用情况。

  • 查看训练作业监控指标

    在训练作业运行过程中,如果用户能在模型训练出问题(例如loss值异常)的情况下能收到告警并及时处理,可以节省大量时间和资源,避免无效运行作业导致的浪费。同时通过指标监控可以实时掌握训练作业的进度,了解模型在不同阶段的训练状态。

智能运维

训练作业运行过程中,ModelArts平台会对训练作业进行全方位的实时监测,确保作业的正常运行。训练作业详情中提供智能运维功能,便于用户对作业的监测和运维。

评估结果

训练作业运行结束后,ModelArts可为您的模型进行评估,并且给出调优诊断和建议。

标签

通过给训练作业添加标签,可以标识云资源,便于快速搜索训练作业。

训练作业任务详情信息

自定义作业详情页的“任务详情”展示作业的基本信息。

表2 任务详情信息

分类

参数

说明

基本信息

任务名称

训练任务的名称。

任务ID

训练作业唯一标识。

作业状态

  • 训练作业状态。
  • 分为:已完成、等待中、运行中、创建中、终止中、已终止、运行失败、异常、删除中。
说明:
  • 如果昇腾以及MindSpore框架的训练作业运行失败,您可以在作业状态的提示信息中,单击昇腾论坛进行发帖提问或者搜索问题。
  • 非昇腾规格的作业运行失败后,您可以在作业状态的提示信息中,单击ModelArts开发者论坛进行发帖或者搜索已有问题

创建时间

记录训练作业创建时间。

运行时长

记录训练作业运行时长,是训练作业全生命周期中多次的k8s资源运行的时长总和。

描述

训练作业的描述

未配置时显示“--”,您可以单击图标,更新训练作业的描述。

训练配置

镜像类型

训练作业所选择的镜像类型。

预置镜像或自定义镜像。

镜像

训练作业所选择的镜像名称。

镜像地址

镜像所在SWR地址。

代码目录

训练作业代码目录所在的OBS路径。

未配置时显示“--”。

您可以单击图标,更新代码。

本地代码目录

训练代码在训练容器中的存放路径。

启动命令

镜像的启动命令。

环境变量

训练作业设置的环境变量。

资源配置

资源类型

训练作业所选择资源池的类型。专属资源池或公共资源池。

资源池

训练作业所选择的资源池名称。

实例规格

训练作业使用的实例规格信息。

此处显示的是本次训练作业实际分配给训练容器的实例规格,以及创建训练作业时选择的“实例规格”

  • 目标规格:是指用户在创建训练作业时配置或选择的资源规格,表示作业期望使用的计算资源总量,包括 CPU、内存等。
  • 实际规格:是指训练作业运行时平台实际分配给训练容器的资源配置。在目标规格基础上,平台会为操作系统、Kubernetes 系统组件及资源池插件预留必要资源,因此用户实际可用资源通常小于目标规格。

实例数

训练作业设置的实例数。

计算节点 ID

默认展示当前计算节点个数。

单击展示训练作业使用的计算节点名称及其IP地址,仅当训练作业使用专属资源池时可见。

作业调度优先级

  • 使用专属资源池创建的训练作业,展示作业优先级。使用公共资源池创建的训练作业,不展示此参数。
  • 作业默认按照优先级从高到低依次处理,对于相同优先级的任务,则根据提交时间的先后顺序进行调度,最终结合实际的资源情况决定调度顺序(保证在资源充足、相同优先级下,先提交的任务先调度)。
  • 作业优先级数字为1-3,数字越大,优先级越高,默认优先级为“1”,最高优先级为“3”
  • 如果训练作业长时间处于“等待中”的状态,则可以通过修改作业优先级来减少排队时长,请参见修改训练作业优先级

允许被抢占

  • 使用专属资源池创建训练作业时,允许设置训练作业被抢占。使用公共资源池时,不展示此参数配置。
  • 开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置,操作指导请参考设置断点续训练
  • 未设置时显示“已关闭”

数据配置

训练集

本次训练作业所选用的数据集名称。

未配置或未开启时显示“未开启”。

高可用配置

容错与恢复

  • 记录训练作业的出现故障后自动重启的次数,仅当创建训练作业时开启“容错与恢复”功能时可见。
  • 此处显示最大重启次数和已重启次数。
  • 未配置或未开启时显示“未开启”。

无条件自动重启

“容错与恢复”开启后显示。

创建作业时开启无条件自动重启时显示“已开启”。

未配置或未开启时显示“未开启”。

作业卡死重启

“容错与恢复”开启后显示。

创建作业时开启作业卡死重启时显示“已开启”。

未配置或未开启时显示“未开启”。

发布到资产

发布到资产

开启后显示“已开启”。

系统自动将模型产物发布成模型资产,可以在平台进行推理、评测等操作。

未配置或未开启时显示“未开启”。

模型输出路径

用“|”分隔显示“存储路径”和“云上挂载路径”。

  • 存储位置:模型训练完成后存储位置。
  • 云上挂载路径

    用户使用专属资源池时显示此参数。

    系统将存储位置中的文件目录挂载到训练容器中指定路径。用户可自定义该路径,不支持配置为/home/、/home/ma-user/、/home/ma-user/modelarts/等系统目录。

    未配置显示“--”。

自动发布到资产

开启后显示“已开启”。

训练后的模型将自动上传至“资产管理-我的模型”。

未配置或未开启时显示“未开启”。

模型名称

“自动发布到资产”开启时显示。

设置新模型的名称。

支持2-128位,只包含中文、字母、数字、中划线、下划线,且以中文、字母开头,以中文、字母、数字结尾。

模型类型

“自动发布到资产”开启时显示。

根据发布的模型类型选择。

模型品牌

“自动发布到资产”开启时显示。

模型品牌。

模型版本号

“自动发布到资产”开启时显示。

发布为新模型时,版本号为V1。

发布为已有模型新版本时,版本号在该模型上一个版本号自动加1。

注意:模型版本号不支持修改,为系统自动生成。

描述

“自动发布到资产”开启时显示。

训练后模型的描述信息。该字段可选,最大长度256字符。

访问配置

JupyterLab

显示训练作业的JupyterLab地址,仅勾选JupyterLab训练应用程序的调试训练作业才有该参数。

未配置时显示“未开启”。

SSH远程开发

显示训练作业SSH远程开发的密钥对和SSH地址,仅启用SSH远程开发的调试训练作业才有该参数。

未配置时显示“未开启”。

生成实例间 SSH 免密互信文件

显示训练作业配置的生成实例间 SSH 免密互信文件信息。

未配置时显示“未开启”。

可观测配置

Tensorboard

TensorBoard是TensorFlow的可视化工具包,提供机器学习实验所需的可视化功能和工具。TensorBoard能够有效地展示训练过程中的计算图、各种指标随时间的变化趋势以及训练中使用到的数据信息,相关概念请参考TensorBoard官网

使用公共资源池时,不展示此参数配置。

显示“已开启”,同时展示配置的存储路径。

未配置时显示“未开启”。

MindStudio Insight

MindStudio Insight能可视化展现出训练过程中的标量、图像、计算图以及模型超参等信息,支持基于MindSpore引擎的训练作业。MindStudio Insight相关概念请参考MindSpore官网

使用公共资源池时,不展示此参数配置。

显示“已开启”,同时展示配置的存储路径。

未配置时显示“未开启”。

监控指标对接AOM

  • http获取指标:已配置此参数的训练作业展示已配置的采集URL和采集端口。
  • 命令行获取指标:已配置此参数的训练作业展示已配置的执行命令和执行命令参数。

未配置时显示“未开启”。

更多配置

永久保存日志

配置“日志路径”后展示配置的路径。

未配置时显示“未开启”。

作业可见范围

分为“工作空间内可见”“仅创建者可见”

  • “工作空间内可见”:创建的训练作业在当前工作空间内,默认其他子用户均可看到该训练作业。
  • “仅创建者可见”:默认创建者可见,其他人希望查看该作业需要额外申请“modelarts:trainJob:listAll”权限(查看训练作业列表(包含仅创建者可见的作业)权限)。

自动停止

显示本次训练作业配置的自动停止时间,支持设置为“1小时”“2小时”“4小时”、6小时或“自定义”,自定义时间取值范围为1~720小时。

启用该参数并设置时间后,运行时长到期后将会自动终止训练,准备排队等状态不扣除运行时长。

未配置时显示“未开启”。

事件通知

展示创建训练作业时配置的事件通知主题和通知事件。

未配置时显示“未开启”。

  • 在训练详情页,支持管理训练作业的事件通知。
    • 作业状态为“已完成”“运行失败”“异常”和“已终止”的训练作业不支持在详情中配置事件通知。
    • 拥有查看列表中作业的权限才能配置事件通知。
    • 如果是修改事件类型,只会通知修改成功之后的训练状态变化。

    配置事件通知后,在训练作业发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用,详情查看消息通知服务计费说明

    • 如果训练作业已经启用事件通知,则可以单击“已配置”右侧的,修改或关闭事件通知。
    • 如果训练作业未启用事件通知,则可以单击“未配置”右侧的,启用并配置事件通知。
    表3 事件通知的参数说明

    参数名称

    说明

    主题名

    事件通知的主题名称。可以在下拉框中选择合适的主题名称,也可以单击“立即创建”,前往消息通知服务中新建主题。

    说明:

    在消息通知服务中创建主题,并为该主题添加订阅,确认该订阅状态为“已确认”后,方可收到事件消息提醒。

    事件

    选择要订阅的事件类型。例如“作业开始”、“作业结束”、“作业失败”、“作业终止”、“作业疑似卡死”等。

    说明:

    只有资源类型为GPU或NPU的训练作业才支持通知“作业疑似卡死”的事件。

相关文档