更新时间:2026-02-05 GMT+08:00
分享

执行训练任务

本章节介绍基于ModelArts控制台配置并执行训练任务的关键操作。

前提条件

  • 已经在ModelArts控制台完成权限配置,具体参考委托授权配置,如果未配置授权,会在训练作业页面顶端提示权限缺失,请根据界面提示操作。
  • 将模型权重、训练数据、数据预处理脚本、训练脚本上传至OBS桶中,例如obs://areal/xxx

步骤一:基础配置

  1. 登录ModelArts管理控制台,选择模型开发与训练 > 模型训练,进入训练作业列表页。
  2. 单击“创建训练作业”,进入创建训练作业页面。根据下表填写训练作业基础配置参数。
    表1 基础配置参数说明

    参数

    是否可选

    说明

    示例

    训练模式

    必选

    训练模式分为精调训练和自定义作业,本方案中选择“自定义作业”

    自定义作业

    作业名称

    必选

    必填,训练作业的名称。

    系统会自动生成一个名称,可以根据业务需求重新命名。

    系统自动生成

    描述(可选)

    可选

    训练作业的简介,便于在训练作业列表了解作业信息。

    AReaL训练

步骤二:训练配置

根据表2填写训练作业关键配置参数。

图1 创建训练作业
表2 训练配置参数说明

参数

是否可选

说明

示例

选择镜像

必选

选择训练需要的容器镜像。本方案中选择预置镜像。

平台中预置了AReaL框架训练所需镜像环境,可以直接使用,无需用户再准备。

预置镜像

镜像地址

必选

具体的镜像地址,AReaL镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、AReaL框架代码包等。

AReaL

启动命令

必选

训练镜像的启动命令。

此处需要提前将训练作业启动脚本放入OBS桶中。

如果用户自定义了gsm8k_grpo_npu.yaml文件,也需要放在obs://<bucket_name>/areal中,并增加下面的命令到bash命令之前来覆盖镜像中默认的yaml

\cp your_custom_obs_yaml /home/ma-user/AReaL/examples/math/gsm8k_grpo_npu.yaml
cd /home/ma-user/modelarts/user-job-dir;bash areal/a2_multi.sh

\cp your_custom_obs_yaml /home/ma-user/AReaL/examples/math/gsm8k_grpo_npu.yaml
cd /home/ma-user/modelarts/user-job-dir;bash areal/a2_multi.sh

代码目录

必选

代码、数据集及模型存在OBS中时,选择OBS桶路径obs://<bucket_name>/areal代码目录。平台会自动将areal文件夹下载到训练容器中的/home/ma-user/modelarts/user-job-dir下。

obs://<bucket_name>/areal

本地代码目录

必选

用于指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录

需要改为/home/ma-user/modelarts/user-job-dir,和训练脚本中设置的代码目录保持一致。

/home/ma-user/modelarts/user-job-dir

环境变量

必选

环境变量包括以下内容,参考示例配置。

  • GBS:Global Batch Size,默认128
  • FILE_ROOT_PATH:Areal所有logs、rollout及ckpt等信息都在该配置文件下,一般默认即可,默认/home/ma-user/areal_exp。注意,当设置了CKPT_ROOT_PATH时,ckpt不再保存在FILE_ROOT_PATH下
  • MODEL_PATH:模型在训练容器中的路径,如/home/ma-user/modelarts/user-job-dir/areal/models/Qwen3-8B
  • DATASET_PATH:数据集在训练容器中的路径,如/home/ma-user/modelarts/user-job-dir/areal/dataset/gsm8k
  • CKPT_ROOT_PATH:指定ckpt的保存路径,默认/home/ma-user/ckpts/areal_space。当需要将ckpt保存到OBS上时,配置该值为OBS在容器内的挂载路径。比如obs://your_bucket/ckpt_space,挂载到容器/home/ma-user/ckpts,则该值填为/home/ma-user/ckpts/ckpt_space
  • ALLOCATION_MODE:训推的分配模式,如vllm:d2p1t4+d8p1t1表示推理使用vllm,tp为4,共占用8卡,训练使用fsdp,只有dp,占用8卡。

    ALLOCATION_MODE的总卡数需要和作业下发使用的资源一致,即作业节点的总卡数=ALLOCATION_MODE的总卡数,否则可能会有异常出现。

#Global Batch Size

GBS = 128

#AReaL框架运行信息元路径

FILE_ROOT_PATH = /home/ma-user/areal_exp

#模型在容器中的路径

MODEL_PATH = /home/ma-user/modelarts/user-job-dir/areal/models/Qwen3-8B

#数据集在容器中的路径

DATASET_PATH = /home/ma-user/modelarts/user-job-dir/areal/dataset/gsm8k

#CKPT保存路径

CKPT_ROOT_PATH = /home/ma-user/ckpts/ckpt_space

#训推的分配模式

#vllm:d2p1t4+d8p1t1表示推理使用vllm,dp2,tp为4,共占用8卡,训练使用fsdp,只有dp,占用8卡。
ALLOCATION_MODE = vllm:d2p1t4+d8p1t1
#对于32B场景,训练需要配置双机,推理单机,如ALLOCATION_MODE = vllm:d2p1t4+d16p1t1

步骤三:资源配置

根据表3填写训练作业资源配置参数。

表3 资源配置参数说明

参数

是否可选

说明

示例

资源池类型

必选

选择公共资源池或专属资源池。

本方案中要求使用专属资源池。

专属资源池

资源池

必选

单击“选择资源池”,在右侧弹窗中选择规格为8 * Snt9b2的物理资源池。

资源池需要提前创建。单击资源碎片列的“查看”可以查看碎片详情,确认资源池是否满足训练需求。

物理资源池

8 * Snt9b2

实例规格

必选

选择8*Snt9b2资源规格。

8*Snt9b2

实例数

必选

Qwen3-8B模型训练需要2机共16卡资源,设置为2。

Qwen3-32B模型训练需要3机共24卡资源,设置为3。

Qwen3-8B:2

Qwen3-32B:3

挂载存储

可选

单击“添加拓展存储OBS”,需要使用OBS存储训练产物。

拓展存储OBS

存储位置:选择OBS桶中的训练输出路径。注意和代码OBS路径区分开

obs://<bucket_name>/ckpt_space

云上挂载路径:训练容器中的训练产物输出路径.例如,对于本示例,

obs://<bucket_name>/ckpt_space挂载到容器中则路径为/home/ma-user/ckpts/ckpt_space

/home/ma-user/ckpts

只读:表示挂载的OBS路径只能读,不能写。训练输出需要写入到OBS中,此处不能勾选。

不勾选

作业调度优先级

可选

训练作业调度优先级。

保持默认

允许被抢占

可选

开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置。

不勾选

步骤四:高可用配置

根据表4填写训练作业高可用配置参数。

表4 高可用配置参数说明

参数

是否可选

说明

示例

最大重启次数

可选

超过最大重启次数后发生故障,作业将被标记为失败。默认值为3。

保持默认

无条件自动重启

可选

只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。详细可了解:无条件自动重启

不勾选

作业卡死重启

可选

系统支持自动监控作业进程的状态和资源利用率来判定作业是否卡死,开启此开关后,支持将标记为卡死的作业进行进程级自动重启,以提高资源使用率。为了避免无效重启浪费算力资源,系统最多只支持连续作业卡死重启3次。

勾选

步骤五:访问配置

本方案中,访问配置涉及的在线调试、SSH远程开发等参数保持默认,不配置。

步骤六:可观测配置

本方案中,可观测配置涉及到的监控指标对接AOM参数保持默认,不配置。

步骤七:更多其他配置

根据表5填写训练作业高可用配置参数。

表5 高可用配置参数说明

参数

是否可选

说明

示例

永久保存日志

必选

日志30天后会被清理,打开按钮后可保存至指定OBS路径。您也可以在作业详情页下载全部日志至本地。路径可以按照自己实际obs情况自由配置

勾选

作业可见范围

可选

默认为工作空间内可见,同一个工作空间内容的用户均可以查看此训练作业。

仅创建者可见:创建的训练作业对其他用户不可见。

工作空间内可见

自动停止

可选

开启后,当作业运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。

不勾选

事件通知

可选

配置该选项后发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用。

不勾选

标签

可选

如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,需要在TMS中设置标签。

不勾选

最后,在创建训练作业页面底部,单击“提交”,确认信息后,单击“立即创建”,提交训练作业。

训练作业一般需要运行一段时间,可以前往训练作业列表或训练详情页,查看训练作业的基本情况。

训练完成后,请参考查看训练结果输出章节查看训练日志和性能。

了解更多ModelArts训练功能,可查看ModelArts模型训练

相关文档