方案概述

本文档介绍了在ModelArts训练平台上基于VeRL训练框架，对业界主流的开源三方大模型进行强化学习训练的详细过程。

VeRL是一个灵活、高效且面向生产环境的大语言模型（LLM）强化学习训练库，具有高度的灵活性和易用性，主要体现在：

轻松扩展多样化的强化学习算法：混合控制器编程模型支持对复杂的后训练数据流进行灵活的表示和高效的执行。只需几行代码即可构建GRPO、PPO等强化学习数据流。
通过模块化API与现有LLM基础设施无缝集成：解耦计算与数据依赖，支持与现有LLM框架（如FSDP、Megatron-LM、vLLM、SGLang等）无缝对接。
灵活的设备映射：支持将模型灵活部署在不同的GPU集合上，从而在不同规模的集群中实现高效的资源利用率和可扩展性。
与主流HuggingFace模型即插即用：支持直接集成流行的HuggingFace模型。

表1 本方案支持的模型列表
模型	训练场景	训练框架	Megatron	PyTorch FSDP	训练所需最小卡数
Qwen3-8b	RLHF	VeRL	x	√	Snt9b2 8卡
Qwen2.5-VL-32b-Instruct	RLHF	VeRL	x	√	Snt9b2 16卡
Qwen3-30B-A3B	RLHF	VeRL	√	x	Snt9b2 16卡

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习），通过将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。

本方案适用西南-贵阳一区域，专属资源池、OBS、ModelArts训练作业都要求在西南-贵阳一创建。

表2 训练涉及到资源和数据文件
序号	准备项	是否必选	说明
1	ModelArts算力资源	是	推荐使用ModelArts专属资源池中的Snt9b资源，专属资源池需要提前创建。
2	OBS桶	是	由于ModelArts创建训练作业时，需要从OBS桶中获取模型权重文件、训练数据、训练脚本，并将训练产物输出至OBS桶中，因此创建OBS桶为必选项。
3	模型权重文件	是	训练所需模型文件，需要用户提前准备，本文档提供了下载地址。
4	训练数据集	是	训练所需数据集，需要用户提前准备，本文档提供了下载地址。
5	训练相关脚本	是	包括数据集预处理脚本、训练作业启动脚本等，需要用户提前准备，本文档中提供了脚本样例，可以直接使用。
6	训练环境镜像	否	训练镜像已经预置在训练平台中，无需用户准备，在创建训练作业时直接选择即可。该镜像中包含了训练所需环境必备软件，例如：Cann包、驱动、PyTorch、训练框架代码包等。

表3 操作任务流程说明
阶段	任务	说明
准备工作	配置云资源	准备训练所需的专属资源池，准备OBS桶。
	准备模型权重与训练数据	准备模型权重文件、训练数据集，数据处理脚本文件，并将这些文件上传到OBS桶中。
	准备训练脚本	训练所需要的脚本文件提前按要求准备好，并上传至OBS桶中。
训练	执行训练任务	创建训练作业，在创建过程中选择预置的训练环境镜像，选择训练所需资源规格，设置输入输出等参数。
查看训练结果	查看训练日志	查看训练后的日志，训练的性能结果。
查看训练结果	获取训练输出结果	在训练任务中设置的输出路径下获取训练后的模型。