方案概述

场景描述

本文档介绍了在ModelArts上基于VeOmni训练框架，对业界主流的开源三方大模型进行微调训练的详细过程。

VeOmni框架介绍

VeOmni 是由字节跳动 seed 团队推出的开源全模态分布式训练框架，基于 PyTorch 构建。该框架以模型为核心，将分布式并行逻辑与模型计算过程解耦，支持灵活组合多种并行策略（如 fsdp、sp、ep），能够高效扩展至超长序列和大规模MOE 模型的训练场景。VeOmni 提供轻量级的全模态接口，简化多模态编解码器的接入流程，集成动态批处理、高效算子等系统级优化技术，提升训练效率与稳定性。

支持的模型列表

表1 支持的大语言模型列表
训练模型	训练场景	训练框架	训练所需最小卡数
Qwen3-8B	SFT	VeOmni	Snt9b2 8卡
Qwen3-30B-A3B	SFT	VeOmni	Snt9b2 16卡
Qwen3-32B	SFT	VeOmni	Snt9b2 16卡
Qwen3-VL-8B	SFT	VeOmni	Snt9b2 8卡

约束限制

本方案适用西南-贵阳一区域，专属资源池、OBS、ModelArts训练作业都要求在西南-贵阳一创建。
训练使用的算力资源是Snt9b2。

训练待准备资源和文件列表

表2 训练涉及到资源和数据文件
序号	准备项	是否必选	说明
1	ModelArts算力资源	是	推荐使用ModelArts专属资源池中的Snt9b资源，专属资源池需要提前创建。
2	OBS桶	是	由于ModelArts创建训练作业时，需要从OBS桶中获取模型权重文件、训练数据、训练脚本，并将训练产物输出至OBS桶中，因此创建OBS桶为必选项。
3	模型权重文件	是	训练所需模型文件，需要用户提前准备，本文档提供了下载地址。
4	训练数据集	是	训练所需数据集，需要用户提前准备，本文档提供了下载地址。
5	训练相关脚本	是	包括数据集预处理脚本、训练作业启动脚本等，需要用户提前准备，本文档中提供了脚本样例，可以直接使用。
6	训练环境镜像	否	训练镜像已经预置在训练平台中，无需用户准备，在创建训练作业时直接选择即可。该镜像中包含了训练所需环境必备软件，例如：Cann包、驱动、PyTorch、训练框架代码包等。

操作流程

表3 操作任务流程说明
阶段	任务	说明
准备工作	配置云资源	准备训练所需的专属资源池，准备OBS桶。
	准备模型权重与训练数据	准备模型权重文件、训练数据集，数据处理脚本文件，并将这些文件上传到OBS桶中。
	准备训练脚本	训练所需要的脚本文件提前按要求准备好，并上传至OBS桶中。
训练	执行训练任务	创建训练作业，在创建过程中选择预置的训练环境镜像，选择训练所需资源规格，设置输入输出等参数。
查看训练结果	查看训练日志	查看训练后的日志，训练的性能结果。
查看训练结果	获取训练输出结果	在训练任务中设置的输出路径下获取训练后的模型。