各训练框架支持的模型和特性

表1 LlamaFactory支持的模型和关键特性
模型类型	模型系列	模型名称	训练方法（PT、SFT、DPO）	长序列并行（Ulysses）	DeepSeed ZeRo并行	FlashAttention
LLM	DeepSeek系列	DeepSeek-R1-671B	x	x	x	x
		DeepSeek-V3-671B	x	x	x	x
		DeepSeek-V2-Lite 16B	x	x	x	x
	Qwen2系列	Qwen2-0.5B	PT、SFT	x	√	√
		Qwen2-1.5B	x	x	x	x
		Qwen2-7B	PT、SFT	x	√	√
		Qwen2-72B	PT、SFT	x	√	√
	Qwen2.5系列	Qwen2.5-0.5B	PT、SFT	x	√	√
		Qwen2.5-1.5B	PT、SFT	x	PT、SFT	PT、SFT
		Qwen2.5-7B	PT、SFT	x	√	√
		Qwen2.5-14B	PT、SFT、DPO	x	√	√
		Qwen2.5-32B	PT、SFT	x	√	√
		Qwen2.5-72B	PT、SFT、DPO	x	√	√
	Qwen3系列	Qwen3-0.6B	PT、SFT	x	√	√
		Qwen3-1.7B	PT、SFT	x	√	√
		Qwen3-4B	PT、SFT	x	√	√
		Qwen3-8B	PT、SFT	x	√	√
		Qwen3-14B	PT、SFT	x	√	√
		Qwen3-32B	PT、SFT	x	√	√
	Llama系列	Llama3.1 -8B/70B	PT、SFT	x	√	√
	Llama系列	Llama3.2 -1B/3B	PT、SFT	x	√	√
	glm系列	glm-4-9b-chat	PT、SFT	x	√	√
	Mixtral系列	Mixtral-8x7B-Instruct-v0.1	x	x	x	x
多模态	Qwen2 VL系列	Qwen2-VL-2B	PT、SFT	x	√	√
		Qwen2-VL-7B	PT、SFT	x	√	√
		Qwen2-VL-72B	PT、SFT	x	√	√
	Qwen2.5 VL系列	Qwen2.5-VL-3B	PT、SFT	x	√	√
		Qwen2.5-VL-7B	PT、SFT、DPO	√	√	√
		Qwen2.5-VL-32B	PT、SFT	x	√	√
		Qwen2.5-VL-72B	PT、SFT	x	√	√
	Qwen 3 VL系列	Qwen3-VL-8B	PT、SFT	x	√	√
	InternVL2.5系列	InternVL2.5-1B	PT、SFT	x	√	√
		InternVL2.5-2B	PT、SFT	x	√	√
		InternVL2.5-8B	PT、SFT	x	√	√
	InternVL3系列	InternVL3-1B	PT、SFT	x	√	√
	InternVL3系列	InternVL3-8B	PT、SFT	x	√	√
	Intern-lm系列	Intern-S1	PT、SFT	x	√	x
	Intern-lm系列	Intern-S1-mini	PT、SFT	x	√	x
	Gemma系列	Gemma3-27b	PT、SFT	x	√	√

表2 MindSpeed-LLM支持的模型和关键特性
模型类型	模型系列	模型名称	PT、full微调	LoRA微调	多轮对话微调	Flash attention	SPTD并行（张量并行、流水线并行、虚拟流水并行、序列并行）	长序列并行（Ascend Ring Attention 长序列并行、Ulysses 长序列并行、混合长序列并行）	MOE并行（MOE 专家并行、MOE 重排通信优化）
LLM	DeepSeek系列	DeepSeek-V3-671B	√	√	x	√	√	√	√
	DeepSeek系列	DeepSeek-V2-Lite 16B	√	√	x	√	√	√	√
	Qwen2 系列	Qwen2-0.5B	√	√	x	√	√	√	√
		Qwen2-1.5B	√	√	x	√	√	√	√
		Qwen2-7B	√	√	x	√	√	√	√
		Qwen2-72B	√	√	x	√	√	√	√
	Qwen2.5 系列	Qwen2.5-0.5B	√	√	x	√	√	√	√
		Qwen2.5-1.5B	√	√	x	√	√	√	√
		Qwen2.5-7B	√	√	x	√	√	√	√
		Qwen2.5-14B	√	√	x	√	√	√	√
		Qwen2.5-32B	√	√	x	√	√	√	√
		Qwen2.5-72B	√	√	x	√	√	√	√
	Qwen3系列	Qwen3-0.6B	√	√	x	√	√	√	√
		Qwen3-1.7B	√	√	x	√	√	√	√
		Qwen3-4B	√	√	x	√	√	√	√
		Qwen3-8B	√	√	√	√	√	√	√
		Qwen3-14B	√	√	x	√	√	√	√
		Qwen3-32B	√	√	x	√	√	√	√
		Qwen3-30B-A3B	√	√	x	√	√	√	√
		Qwen3-235b-A22B	√	x	x	√	√	√	√
	Llama系列	Llama3.1 -8B/70B	√	√	x	√	√	√	√
	Llama系列	Llama3.2 -1B/3B	√	√	x	√	√	√	√
	glm系列	glm-4-9b-chat	√	√	x	√	√	√	√
	Mixtral系列	Mixtral-8x7B-Instruct-v0.1	√	√	x	√	√	√	√

支持多种显存优化特性，包括参数副本、分布式优化器、swap attention、重计算、Norm重计算；支持梯度reduce通算掩盖、Recompute in advance、权重all-gather通算掩盖、MC2等通信优化。

表3 VeRL支持的模型和关键特性
模型类型	模型系列	模型名称	强化学习算法（GRPO、DAPO、PPO）	vllm推理后端版本	训练后端（FSDP、MindSpeed）	one-step-off特性	多轮对话Agent训练特性	LoRA微调
LLM	Qwen2.5系列	Qwen2.5-7B	GRPO	0.11.0	FSDP	x	x	x
		Qwen2.5-32B	GRPO、DAPO、PPO	0.11.0	FSDP	x	x	x
		Qwen2.5-72B	GRPO、DAPO	0.11.0	FSDP、MindSpeed	x	x	x
	Qwen3系列	Qwen3-8B	GRPO、PPO	0.11.0	FSDP、MindSpeed	√	x	√ (只支持FSDP)
		Qwen3-14B	GRPO、DAPO、PPO	0.11.0	FSDP	x	x	x
		Qwen3-32B	GRPO、DAPO、PPO	0.11.0	FSDP、MindSpeed	x	x	x
		Qwen3-30B-A3B	GRPO、DAPO	0.11.0	MindSpeed	x	√	x
多模态	Qwen2.5 VL系列	Qwen2.5-VL-3B	GRPO	0.11.0	FSDP	x	x	x
		Qwen2.5-VL-7B	GRPO、DAPO、PPO	0.11.0	FSDP	x	x	x
		Qwen2.5-VL-32B	GRPO、DAPO、PPO	0.11.0	FSDP	x	x	x
		Qwen2.5-VL-72B	GRPO、DAPO	0.11.0	FSDP	x	x	x

表4 MindSpeed-MM支持的模型和关键特性
模型类型	模型系列	模型名称	并行优化（TP、TP-SP、VPP、PP、CP、FSDP2）	Megatron 分布式优化器	Megatron重计算（“-”表示当前版本未明确支持）	训练方法（PT、SFT）	LoRA微调
多模态	Qwen2.5 VL系列	Qwen2.5-VL-3B	TP、TP-SP、PP、CP	√	√	PT、full微调	x
	Qwen2.5 VL系列	Qwen2.5-VL-7B	TP、TP-SP、PP、CP	√	√	PT、full微调	x
	Qwen3 VL系列	Qwen3-VL-8B	FSDP2	x	-	full微调	x
	InternVL3 系列	InternVL3-8B	TP、TP-SP、VPP、PP、CP	√	√	PT、full微调	x