更新时间:2026-02-05 GMT+08:00
分享

方案概述

场景描述

本文档介绍了在ModelArts上基于AReaL强化学习框架,对业界主流的开源三方大模型进行强化学习训练的详细过程。训练使用的算力资源是Snt9b。

AReaL框架介绍

AReaL 是一个开源的完全异步强化学习训练系统,用于训练大型推理和智能体模型。基于开源项目 ReaLHF,我们完全遵循开源原则,提供复现我们成果所需的训练细节、数据和基础设施,同时公开模型本身。AReaL 的目标是帮助每个人轻松且经济地构建自己的 AI 智能体。

支持的模型列表

表1 本方案支持的模型列表

模型

训练场景

训练框架

Megatron

PyTorch FSDP

训练所需最小卡数

Qwen3-8b

强化学习

AReaL

x

Snt9b2 16卡

Qwen3-32b

强化学习

AReaL

x

Snt9b2 24卡

约束限制

  • 本方案适用西南-贵阳一区域,专属资源池、OBS、ModelArts训练作业都要求在西南-贵阳一创建。
  • 训练使用的算力资源是Snt9b2

训练待准备资源和文件列表

表2 训练涉及到资源和数据文件

序号

准备项

是否必选

说明

1

ModelArts算力资源

推荐使用ModelArts专属资源池中的Snt9b资源,专属资源池需要提前创建。

2

OBS桶

由于ModelArts创建训练作业时,需要从OBS桶中获取模型权重文件、训练数据、训练脚本,并将训练产物输出至OBS桶中,因此创建OBS桶为必选项。

3

模型权重文件

训练所需模型文件,需要用户提前准备,本文档提供了下载地址。

4

训练数据集

训练所需数据集,需要用户提前准备,本文档提供了下载地址。

5

训练相关脚本

训练作业启动脚本,需要用户提前准备,本文档中提供了脚本样例,可以直接使用。

6

训练环境镜像

训练镜像已经预置在训练平台中,无需用户准备,在创建训练作业时直接选择即可。

该镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、训练框架代码包等。

操作流程

表3 操作任务流程说明

阶段

任务

说明

准备工作

配置云资源

准备训练所需的专属资源池,准备OBS桶。

准备模型权重与训练数据

准备模型权重文件、训练数据集,数据处理脚本文件,并将这些文件上传到OBS桶中。

准备训练脚本

训练所需要的脚本文件提前按要求准备好,并上传至OBS桶中。

训练

执行训练任务

创建训练作业,在创建过程中选择预置的训练环境镜像,选择训练所需资源规格,设置输入输出等参数。

查看训练结果

查看训练日志

查看训练后的日志,训练的性能结果。

获取训练输出结果

在训练任务中设置的输出路径下获取训练后的模型。

相关文档