更新时间:2025-11-18 GMT+08:00

查看训练作业详情

  1. 登录ModelArts管理控制台
  2. 在左侧导航栏中,选择模型训练 > 训练作业,进入“训练作业”列表。

    在作业列表,单击“导出”,可以将训练作业根据时间周期导出Excel表到本地。最多只支持导出前200行数据。

    在训练作业列表上方的搜索框中,根据您需要的属性类型,例如状态、作业模式、作业类型作业优先级等进行筛选过滤,快速查找训练作业。

  3. “训练作业”列表中,单击作业名称,进入训练作业详情页。
  4. 在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。
    • 训练作业基本信息
      表1 训练作业基本信息

      参数

      说明

      “作业ID”

      训练作业唯一标识。

      “作业状态”

      • 训练作业状态。
      • 分为:已完成、等待中、运行中、创建中、终止中、已终止、运行失败、异常、删除中。

      “所属实验”

      • 创建训练作业时配置“实验设置”的作业显示所属实验的名称。
      • 单击可进入对应的实验作业列表。

      “创建时间”

      记录训练作业创建时间。

      “运行时长”

      记录训练作业运行时长,是训练作业全生命周期中多次的k8s资源运行的时长总和。

      “重启次数”

      • 记录训练作业的出现故障后自动重启的次数,仅当创建训练作业时开启“自动重启”功能时可见。
      • 此处显示“当前重启次数/最大重启次数”

      “无条件自动重启”

      “自动重启”开启后显示。

      创建作业时开启无条件自动重启时显示“已开启”。

      未配置或未开启时显示“未配置”。

      “作业卡死重启”

      “自动重启”开启后显示。

      创建作业时开启作业卡死重启时显示“已开启”。

      未配置或未开启时显示“未配置”。

      “描述”

      训练作业的描述。

      未配置时显示“--”,您可以单击图标,更新训练作业的描述。

      “作业优先级”

      • 使用专属资源池创建的训练作业,展示作业优先级。使用公共资源池创建的训练作业,不展示此参数。
      • 作业默认按照优先级从高到低依次处理,对于相同优先级的任务,则根据提交时间的先后顺序进行调度,最终结合实际的资源情况决定调度顺序(保证在资源充足、相同优先级下,先提交的任务先调度)。
      • 作业优先级数字为1-3,数字越大,优先级越高,默认优先级为“1”,最高优先级为“3”
      • 如果训练作业长时间处于“等待中”的状态,则可以通过修改作业优先级来减少排队时长,请参见修改训练作业优先级

      “允许被抢占”

      • 使用专属资源池创建训练作业时,允许设置训练作业被抢占。使用公共资源池时,不展示此参数配置。
      • 开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置,操作指导请参考设置断点续训练
      • 未设置时显示“已关闭”
    • 训练作业参数
      表2 训练作业参数

      参数

      说明

      “作业模式”

      显示本次训练作业的模式,是调试模式还是生产模式。

      “预置镜像”

      本次训练作业使用的预置镜像框架。仅使用预置框架创建的训练作业才有该参数。

      “自定义镜像”

      本次训练作业使用的自定义镜像。仅使用自定义镜像创建的训练作业才有该参数。

      “代码目录”

      训练作业代码目录所在的OBS路径。

      您可以单击代码目录后的“编辑代码”,在“OBS在线编辑”对话框中实时编辑训练脚本代码。当训练作业状态为“等待中”“创建中”“运行中”时,不支持“OBS在线编辑”功能。

      说明:

      当您使用订阅算法创建训练作业时,不支持该参数。

      “启动文件”

      训练作业启动文件位置。

      说明:

      当您使用订阅算法创建训练作业时,不支持该参数。

      “启动命令”

      镜像的启动命令。创建训练作业时,当“启动方式”选择“预置框架”时不涉及该参数;当“启动方式”选择“自定义”时,展示该参数,训练作业详情页面展示该参数和对应的值。

      “运行用户ID”

      容器运行时的用户ID。

      “算法名称”

      • 本次训练作业使用的算法。单击算法名称,可以跳转至算法详情页面。
      • 未配置时显示“--”。

      “本地代码目录”

      训练代码在训练容器中的存放路径。

      “工作目录”

      训练启动文件在训练容器中的路径。

      “实例数”

      本次训练作业设置的实例数。

      “专属资源池”

      专属资源池信息,仅当训练作业使用专属资源池时可见。

      “计算节点信息”

      展示训练作业使用的计算节点名称及其IP地址,仅当训练作业使用专属资源池时可见。

      “实例规格”

      • 本次训练作业使用的实例规格信息,仅当训练作业未配置专属资源池的自定义规格时可见。
      • 此处显示的是本次训练作业实际分配给训练容器的实例规格,以及创建训练作业时选择的“实例规格”。实际分配的资源一般小于创建时选择的资源,因为作业内部容器会占用一部分资源,这些容器用于支持训练作业的正常运行。

      “自定义规格”

      • 本次训练作业使用的实例规格信息,仅当训练作业配置了专属资源池的自定义规格时可见。
      • 此处显示的是创建训练作业时自定义的资源规格,以及创建训练作业时选择的“实例规格”

      “作业日志路径”

      • 创建训练作业时,勾选开启“永久保存日志”,配置“日志路径”后展示配置的路径。未勾选开启“永久保存日志”时不展示该参数。
      • 单击路径跳转配置的路径所在目录。

      “事件通知”

      • 展示创建训练作业时配置的事件通知主题和通知事件。
      • 未配置时显示“未配置”

      “输入-输入路径”

      本次训练中,输入数据的OBS路径。

      “输入-参数名称”

      算法代码中,输入路径指代的参数。

      “输入-获取方式”

      本次训练作业的输入采用的获取方式。

      “输入-容器内访问路径”

      训练启动后,ModelArts将OBS路径中的数据下载至后台容器,本地路径指ModelArts后台容器中存储输入数据的路径。

      “输出-输出路径”

      本次训练中,输出数据的OBS路径。

      “输出-参数名称”

      算法代码中,输出路径指代的参数。

      “输出-获取方式”

      本次训练作业的输出采用的获取方式。

      “输出-容器内访问路径”

      ModelArts后台容器中存储训练输出的路径。

      “超参”

      本次训练作业使用的超参。

      “环境变量”

      本次训练作业设置的环境变量。

  5. 在训练详情页,支持管理训练作业的事件通知。
    • 作业状态为“已完成”“运行失败”“异常”和“已终止”的训练作业不支持在详情中配置事件通知。
    • 拥有查看列表中作业的权限才能配置事件通知。
    • 如果是修改事件类型,只会通知修改成功之后的训练状态变化。

    配置事件通知后,在训练作业发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用,详情查看消息通知服务计费说明

    • 如果训练作业已经启用事件通知,则可以单击“已配置”右侧的,修改或关闭事件通知。
      图1 修改事件通知
    • 如果训练作业未启用事件通知,则可以单击“未配置”右侧的,启用并配置事件通知。
      图2 配置事件通知
    表3 事件通知的参数说明

    参数名称

    说明

    主题名

    事件通知的主题名称。可以在下拉框中选择合适的主题名称,也可以单击“立即创建”,前往消息通知服务中新建主题。

    说明:

    在消息通知服务中创建主题,并为该主题添加订阅,确认该订阅状态为“已确认”后,方可收到事件消息提醒。

    事件

    选择要订阅的事件类型。例如“作业开始”、“作业结束”、“作业失败”、“作业终止”、“作业疑似卡死”等。

    说明:

    只有资源类型为GPU或NPU的训练作业才支持通知“作业疑似卡死”的事件。