更新时间:2026-02-05 GMT+08:00
分享

执行训练任务

本章节介绍基于ModelArts训练平台配置并执行训练任务的关键操作。

前提条件

  • 已经在ModelArts控制台完成权限配置,具体参考委托授权配置,如果未配置授权,会在训练作业页面顶端提示权限缺失,请根据界面提示操作。
  • 将模型权重、训练数据、数据预处理脚本、训练脚本上传至OBS桶中,例如obs://verl/verl-a2

步骤一:基础配置

  1. 登录ModelArts管理控制台,选择模型开发与训练 > 模型训练,进入训练作业列表页。
  2. 单击“创建训练作业”,进入创建训练作业页面。根据下表填写训练作业基础配置参数。
    表1 基础配置参数说明

    参数

    是否可选

    说明

    示例

    训练模式

    必选

    训练模式分为精调训练和自定义作业,本方案中选择“自定义作业”

    自定义作业

    作业名称

    必选

    必填,训练作业的名称。

    系统会自动生成一个名称,可以根据业务需求重新命名。

    系统自动生成

    描述(可选)

    可选

    训练作业的简介,便于在训练作业列表了解作业信息。

    VeRL训练

步骤二:训练配置

根据表2填写训练作业关键配置参数。

图1 创建训练作业

表2 训练配置参数说明

参数

是否可选

说明

示例

选择镜像

必选

选择训练需要的容器镜像。本方案中选择预置镜像。

平台中预置了VeRL框架训练所需镜像环境,可以直接使用,无需用户再准备。

预置镜像

镜像地址

必选

具体的镜像地址,VeRL镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、VeRL框架代码包等。

VeRL

启动命令

必选

训练镜像的启动命令,其中切换至容器内本地代码目录的cd操作为必要步骤。

此处需要提前将训练作业启动脚本及关联脚本文件都放入OBS桶中。

  • Qwen3-8B涉及以下文件:

    run_train_8b.sh、run_qwen3-8b_npu_ma.sh、gsm8k.py

  • Qwen2.5-VL-32B-Instruct涉及以下文件:

    run_train_32b.sh、run_qwen2_5_vl_32b_npu_ma.sh、geometry3k.py

  • Qwen3-8B
    cd /home/ma-user/work/verl-a2
    bash /home/ma-user/work/verl-a2/run_train_8b.sh
  • Qwen2.5-VL-32B-Instruct
    cd /home/ma-user/work/verl-a2
    bash /home/ma-user/work/verl-a2/run_train_32b.sh

代码目录

必选

代码存在OBS中时,选择OBS桶路径中的代码目录。

obs://verl/verl-a2

本地代码目录

必选

用于指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录

需要改为/home/ma-user/work,和训练脚本中设置的代码目录保持一致。

/home/ma-user/work

环境变量

可选

本实践方案中涉及的环境变量均已在训练脚本中设置完成,不需要在此处设置。

NA

步骤三:资源配置

根据表3填写训练作业资源配置参数。

表3 资源配置参数说明

参数

是否可选

说明

示例

资源池类型

必选

选择公共资源池或专属资源池。

本方案中要求使用专属资源池。

专属资源池

资源池

必选

单击“选择资源池”,在右侧弹窗中选择规格为8 * Snt9b2的物理资源池。

资源池需要提前创建。单击资源碎片列的“查看”可以查看碎片详情,确认资源池是否满足训练需求。

物理资源池

8 * Snt9b2

实例规格

必选

选择8*Snt9b2资源规格。

8*Snt9b2

实例数

必选

Qwen3-8B模型训练需要单机8卡资源,设置为1。

Qwen2.5-VL-32b-Instruct模型训练需要16卡资源,设置为2。

Qwen3-8B:1

Qwen2.5-VL-32b-Instruct:2

挂载存储

必选

单击“添加拓展存储OBS”,需要使用OBS存储训练产物。

拓展存储OBS

存储位置:选择OBS桶中的训练输出路径

obs://verl/verl-a2

云上挂载路径:训练容器中的训练产物输出路径

/output_dir

只读:表示挂载的OBS路径只能读,不能写。训练输出需要写入到OBS中,此处不能勾选。

不勾选

作业调度优先级

可选

训练作业调度优先级。

保持默认

允许被抢占

可选

开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置。

不勾选

步骤四:高可用配置

根据表4填写训练作业高可用配置参数。

表4 高可用配置参数说明

参数

是否可选

说明

示例

最大重启次数

可选

超过最大重启次数后发生故障,作业将被标记为失败。默认值为3。

保持默认

无条件自动重启

可选

只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。详细可了解:无条件自动重启

勾选

作业卡死重启

可选

系统支持自动监控作业进程的状态和资源利用率来判定作业是否卡死,开启此开关后,支持将标记为卡死的作业进行进程级自动重启,以提高资源使用率。为了避免无效重启浪费算力资源,系统最多只支持连续作业卡死重启3次。

勾选

步骤五:访问配置

本方案中,访问配置涉及的在线调试、SSH远程开发等参数保持默认,不配置。

步骤六:可观测配置

本方案中,可观测配置涉及到的监控指标对接AOM参数保持默认,不配置。

步骤七:更多其他配置

根据表5填写训练作业高可用配置参数。

表5 高可用配置参数说明

参数

是否可选

说明

示例

永久保存日志

必选

日志30天后会被清理,打开按钮后可保存至指定OBS路径。您也可以在作业详情页下载全部日志至本地。

勾选

obs://verl/verl-a2/logs/

作业可见范围

可选

默认为工作空间内可见,同一个工作空间内容的用户均可以查看此训练作业。

仅创建者可见:创建的训练作业对其他用户不可见。

工作空间内可见

自动停止

可选

开启后,当作业运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。

不勾选

事件通知

可选

配置该选项后发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用。

不勾选

标签

可选

如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,需要在TMS中设置标签。

不勾选

最后,在创建训练作业页面底部,单击“提交”,确认信息后,单击“立即创建”,提交训练作业。

训练作业一般需要运行一段时间,可以前往训练作业列表或训练详情页,查看训练作业的基本情况。

训练完成后,请参考查看训练结果输出章节查看训练日志和性能。训练输出结果存放在OBS桶obs://verl/verl-a2中。

了解更多ModelArts训练功能,可查看ModelArts模型训练

相关文档