方案概述

本文档介绍了在ModelArts上基于AReaL强化学习框架，对业界主流的开源三方大模型进行强化学习训练的详细过程。训练使用的算力资源是Snt9b。

AReaL 是一个开源的完全异步强化学习训练系统，用于训练大型推理和智能体模型。基于开源项目 ReaLHF，我们完全遵循开源原则，提供复现我们成果所需的训练细节、数据和基础设施，同时公开模型本身。AReaL 的目标是帮助每个人轻松且经济地构建自己的 AI 智能体。

表1 本方案支持的模型列表
模型	训练场景	训练框架	Megatron	PyTorch FSDP	训练所需最小卡数
Qwen3-8b	强化学习	AReaL	x	√	Snt9b2 16卡
Qwen3-32b	强化学习	AReaL	x	√	Snt9b2 24卡

表2 训练涉及到资源和数据文件
序号	准备项	是否必选	说明
1	ModelArts算力资源	是	推荐使用ModelArts专属资源池中的Snt9b资源，专属资源池需要提前创建。
2	OBS桶	是	由于ModelArts创建训练作业时，需要从OBS桶中获取模型权重文件、训练数据、训练脚本，并将训练产物输出至OBS桶中，因此创建OBS桶为必选项。
3	模型权重文件	是	训练所需模型文件，需要用户提前准备，本文档提供了下载地址。
4	训练数据集	是	训练所需数据集，需要用户提前准备，本文档提供了下载地址。
5	训练相关脚本	是	训练作业启动脚本，需要用户提前准备，本文档中提供了脚本样例，可以直接使用。
6	训练环境镜像	否	训练镜像已经预置在训练平台中，无需用户准备，在创建训练作业时直接选择即可。该镜像中包含了训练所需环境必备软件，例如：Cann包、驱动、PyTorch、训练框架代码包等。

表3 操作任务流程说明
阶段	任务	说明
准备工作	配置云资源	准备训练所需的专属资源池，准备OBS桶。
	准备模型权重与训练数据	准备模型权重文件、训练数据集，数据处理脚本文件，并将这些文件上传到OBS桶中。
	准备训练脚本	训练所需要的脚本文件提前按要求准备好，并上传至OBS桶中。
训练	执行训练任务	创建训练作业，在创建过程中选择预置的训练环境镜像，选择训练所需资源规格，设置输入输出等参数。
查看训练结果	查看训练日志	查看训练后的日志，训练的性能结果。
查看训练结果	获取训练输出结果	在训练任务中设置的输出路径下获取训练后的模型。

父主题： Qwen3系列模型基于ModelArts平台适配AreaL框架训练指导

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨