方案概述
场景描述
本文档介绍了在ModelArts训练平台上基于VeRL训练框架,对业界主流的开源三方大模型进行强化学习训练的详细过程。
VeRL框架介绍
VeRL是一个灵活、高效且面向生产环境的大语言模型(LLM)强化学习训练库,具有高度的灵活性和易用性,主要体现在:
- 轻松扩展多样化的强化学习算法:混合控制器编程模型支持对复杂的后训练数据流进行灵活的表示和高效的执行。只需几行代码即可构建GRPO、PPO等强化学习数据流。
- 通过模块化API与现有LLM基础设施无缝集成:解耦计算与数据依赖,支持与现有LLM框架(如FSDP、Megatron-LM、vLLM、SGLang等)无缝对接。
- 灵活的设备映射:支持将模型灵活部署在不同的GPU集合上,从而在不同规模的集群中实现高效的资源利用率和可扩展性。
- 与主流HuggingFace模型即插即用:支持直接集成流行的HuggingFace模型。
支持的模型列表
模型 | 训练场景 | 训练框架 | Megatron | PyTorch FSDP | 训练所需最小卡数 |
|---|---|---|---|---|---|
Qwen3-8b | RLHF | VeRL | x | √ | Snt9b2 8卡 |
Qwen2.5-VL-32b-Instruct | RLHF | VeRL | x | √ | Snt9b2 16卡 |
约束限制
- 本方案适用西南-贵阳一区域,专属资源池、OBS、ModelArts训练作业都要求在西南-贵阳一创建。
- 训练使用的算力资源是Snt9b2。
训练待准备资源和文件列表
序号 | 准备项 | 是否必选 | 说明 |
|---|---|---|---|
1 | ModelArts算力资源 | 是 | 推荐使用ModelArts专属资源池中的Snt9b资源,专属资源池需要提前创建。 |
2 | OBS桶 | 是 | 由于ModelArts创建训练作业时,需要从OBS桶中获取模型权重文件、训练数据、训练脚本,并将训练产物输出至OBS桶中,因此创建OBS桶为必选项。 |
3 | 模型权重文件 | 是 | 训练所需模型文件,需要用户提前准备,本文档提供了下载地址。 |
4 | 训练数据集 | 是 | 训练所需数据集,需要用户提前准备,本文档提供了下载地址。 |
5 | 训练相关脚本 | 是 | 包括数据集预处理脚本、训练作业启动脚本等,需要用户提前准备,本文档中提供了脚本样例,可以直接使用。 |
6 | 训练环境镜像 | 否 | 训练镜像已经预置在训练平台中,无需用户准备,在创建训练作业时直接选择即可。 该镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、训练框架代码包等。 |

