执行训练任务
本章节介绍基于ModelArts训练平台配置并执行训练任务的关键操作。
前提条件
- 已经在ModelArts控制台完成权限配置,具体参考委托授权配置,如果未配置授权,会在训练作业页面顶端提示权限缺失,请根据界面提示操作。
- 将模型权重、训练数据、数据预处理脚本、训练脚本上传至OBS桶中,例如obs://verl/verl-a2
步骤一:基础配置
- 登录ModelArts管理控制台,选择,进入训练作业列表页。
- 单击“创建训练作业”,进入创建训练作业页面。根据下表填写训练作业基础配置参数。
表1 基础配置参数说明 参数
是否可选
说明
示例
训练模式
必选
训练模式分为精调训练和自定义作业,本方案中选择“自定义作业”。
自定义作业
作业名称
必选
必填,训练作业的名称。
系统会自动生成一个名称,可以根据业务需求重新命名。
系统自动生成
描述(可选)
可选
训练作业的简介,便于在训练作业列表了解作业信息。
VeRL训练
步骤二:训练配置
根据表2填写训练作业关键配置参数。

参数 | 是否可选 | 说明 | 示例 |
|---|---|---|---|
选择镜像 | 必选 | 选择训练需要的容器镜像。本方案中选择预置镜像。 平台中预置了VeRL框架训练所需镜像环境,可以直接使用,无需用户再准备。 | 预置镜像 |
镜像地址 | 必选 | 具体的镜像地址,VeRL镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、VeRL框架代码包等。 | VeRL |
启动命令 | 必选 | 训练镜像的启动命令,其中切换至容器内本地代码目录的cd操作为必要步骤。 此处需要提前将训练作业启动脚本及关联脚本文件都放入OBS桶中。 |
|
代码目录 | 必选 | 代码存在OBS中时,选择OBS桶路径中的代码目录。 | obs://verl/verl-a2 |
本地代码目录 | 必选 | 用于指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录。 需要改为/home/ma-user/work,和训练脚本中设置的代码目录保持一致。 | /home/ma-user/work |
环境变量 | 可选 | 本实践方案中涉及的环境变量均已在训练脚本中设置完成,不需要在此处设置。 | NA |
步骤三:资源配置
根据表3填写训练作业资源配置参数。
参数 | 是否可选 | 说明 | 示例 |
|---|---|---|---|
资源池类型 | 必选 | 选择公共资源池或专属资源池。 本方案中要求使用专属资源池。 | 专属资源池 |
资源池 | 必选 | 单击“选择资源池”,在右侧弹窗中选择规格为8 * Snt9b2的物理资源池。 资源池需要提前创建。单击资源碎片列的“查看”可以查看碎片详情,确认资源池是否满足训练需求。 | 物理资源池 8 * Snt9b2 |
实例规格 | 必选 | 选择8*Snt9b2资源规格。 | 8*Snt9b2 |
实例数 | 必选 | Qwen3-8B模型训练需要单机8卡资源,设置为1。 Qwen2.5-VL-32b-Instruct模型训练需要16卡资源,设置为2。 | Qwen3-8B:1 Qwen2.5-VL-32b-Instruct:2 |
挂载存储 | 必选 | 单击“添加拓展存储OBS”,需要使用OBS存储训练产物。 | 拓展存储OBS |
存储位置:选择OBS桶中的训练输出路径 | obs://verl/verl-a2 | ||
云上挂载路径:训练容器中的训练产物输出路径 | /output_dir | ||
只读:表示挂载的OBS路径只能读,不能写。训练输出需要写入到OBS中,此处不能勾选。 | 不勾选 | ||
作业调度优先级 | 可选 | 训练作业调度优先级。 | 保持默认 |
允许被抢占 | 可选 | 开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置。 | 不勾选 |
步骤四:高可用配置
根据表4填写训练作业高可用配置参数。
步骤五:访问配置
本方案中,访问配置涉及的在线调试、SSH远程开发等参数保持默认,不配置。
步骤六:可观测配置
本方案中,可观测配置涉及到的监控指标对接AOM参数保持默认,不配置。
步骤七:更多其他配置
根据表5填写训练作业高可用配置参数。
参数 | 是否可选 | 说明 | 示例 |
|---|---|---|---|
永久保存日志 | 必选 | 日志30天后会被清理,打开按钮后可保存至指定OBS路径。您也可以在作业详情页下载全部日志至本地。 | 勾选 obs://verl/verl-a2/logs/ |
作业可见范围 | 可选 | 默认为工作空间内可见,同一个工作空间内容的用户均可以查看此训练作业。 仅创建者可见:创建的训练作业对其他用户不可见。 | 工作空间内可见 |
自动停止 | 可选 | 开启后,当作业运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。 | 不勾选 |
事件通知 | 可选 | 配置该选项后发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用。 | 不勾选 |
标签 | 可选 | 如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,需要在TMS中设置标签。 | 不勾选 |
最后,在创建训练作业页面底部,单击“提交”,确认信息后,单击“立即创建”,提交训练作业。
训练作业一般需要运行一段时间,可以前往训练作业列表或训练详情页,查看训练作业的基本情况。
训练完成后,请参考查看训练结果输出章节查看训练日志和性能。训练输出结果存放在OBS桶obs://verl/verl-a2中。
了解更多ModelArts训练功能,可查看ModelArts模型训练。

