各模型支持的训练特性

本章节介绍不同模型在AscendFactory方案中对应各训练框架支持的训练特性。

模型类型	模型系列	模型	预训练、微调
			MindSpeed-LLM
			pre-training、full微调	Lora微调	多样本pack	Flash	SPTD并行	长序列并行	MOE并行	动态句长
			pre-training、full微调	Lora微调	微调	Attention	（SP、PP、TP、DP）	（Ring Attention、Ulysses、混合长序列）	（专家并行、重排通信优化）	动态句长
LLM	DeepSeek系列	DeepSeek-R1-671B	✅	✅	✅	✅	✅	✅	✅	✅
		DeepSeek-V3-671B	✅	✅	✅	✅	✅	✅	✅	✅
		DeepSeek-V2-Lite 16B	✅	❌	✅	✅	✅	✅	✅	✅
	Qwen2系列	Qwen2-0.5B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2-1.5B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2-7B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2-72B	✅	✅	✅	✅	✅	✅	✅	✅
	Qwen2.5系列	Qwen2.5-0.5B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2.5-1.5B	❌	❌	❌	❌	❌	❌	❌	❌
		Qwen2.5-7B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2.5-14B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2.5-32B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen2.5-72B	✅	✅	✅	✅	✅	✅	✅	✅
	Qwen3系列	Qwen3-0.6B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen3-1.7B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen3-4B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen3-8B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen3-14B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen3-32B	✅	✅	✅	✅	✅	✅	✅	✅
		Qwen3-30B-A3B	✅	❌	✅	✅	✅	✅	✅	✅
		Qwen3-235b-A22B	✅	❌	✅	✅	✅	✅	✅	✅
	Llama系列	Llama3.1 -8B/70B	✅	✅	✅	✅	✅	✅	✅	✅
	Llama系列	Llama3.2 -1B/3B	✅	✅	✅	✅	✅	✅	✅	✅
	glm系列	glm-4-9b-chat	✅	✅	✅	✅	✅	✅	✅	✅
	Mixtral系列	Mixtral-8x7B-Instruct-v0.1	✅	✅	✅	✅	✅	✅	✅	✅
多模态	Qwen2 VL系列	Qwen2-VL-2B	NA	NA	NA	NA	NA	NA	NA	NA
		Qwen2-VL-7B	NA	NA	NA	NA	NA	NA	NA	NA
		Qwen2-VL-72B	NA	NA	NA	NA	NA	NA	NA	NA
	Qwen2.5 VL系列	Qwen2.5-VL-3B	NA	NA	NA	NA	NA	NA	NA	NA
		Qwen2.5-VL-7B	NA	NA	NA	NA	NA	NA	NA	NA
		Qwen2.5-VL-32B	NA	NA	NA	NA	NA	NA	NA	NA
		Qwen2.5-VL-72B	NA	NA	NA	NA	NA	NA	NA	NA
	Gemma系列	Gemma3-27b	NA	NA	NA	NA	NA	NA	NA	NA

模型类型	模型系列	模型	预训练、微调
			LlamaFactory			MindSpeed-MM
			训练方法（PT：预训练）	Zero并行（Zero-1、Zero-2、Zero-3）	Flash Attention	pre-training、full微调	SPTD并行（SP、PP、TP、DP）	分布式优化器	重计算
LLM	Qwen2系列	Qwen2-0.5B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2-7B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2-72B	PT、SFT	✅	✅	❌	❌	❌	❌
	Qwen2.5系列	Qwen2.5-0.5B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2.5-7B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2.5-14B	PT、SFT、DPO	✅	✅	❌	❌	❌	❌
		Qwen2.5-32B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2.5-72B	PT、SFT、DPO	✅	✅	❌	❌	❌	❌
	Qwen3系列	Qwen3-0.6B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen3-1.7B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen3-4B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen3-8B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen3-14B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen3-32B	PT、SFT	✅	✅	❌	❌	❌	❌
	Llama系列	Llama3.1 -8B/70B	PT、SFT	✅	✅	❌	❌	❌	❌
	Llama系列	Llama3.2 -1B/3B	PT、SFT	✅	✅	❌	❌	❌	❌
	glm系列	glm-4-9b-chat	PT、SFT	✅	✅	❌	❌	❌	❌
多模态	Qwen2 VL系列	Qwen2-VL-2B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2-VL-7B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2-VL-72B	PT、SFT	✅	✅	❌	❌	❌	❌
	Qwen2.5 VL系列	Qwen2.5-VL-3B	PT、SFT	✅	✅	✅	✅	✅	✅
		Qwen2.5-VL-7B	PT、SFT、DPO	✅	✅	✅	✅	✅	✅
		Qwen2.5-VL-32B	PT、SFT	✅	✅	❌	❌	❌	❌
		Qwen2.5-VL-72B	PT、SFT	✅	✅	❌	❌	❌	❌
	Gemma系列	Gemma3-27b	PT、SFT	✅	✅	❌	❌	❌	❌

模型类型	模型系列	模型	强化学习
			VeRL				MindSpeed-RL
			训练方法	sglang版本	vllm版本	训练后端	训练方法	vllm版本	训练后端Megatron	长序列并行
LLM	Qwen2.5系列	Qwen2.5-1.5B	❌	❌	❌	❌	GRPO	0.9.1	✅	✅
		Qwen2.5-7B	❌	❌	❌	❌	GRPO	0.9.1	✅	✅
		Qwen2.5-32B	GRPO、DAPO、PPO	❌	0.9.1	FSDP	GRPO	0.9.1	✅	✅
	Qwen3系列	Qwen3-8B	GRPO	❌	0.9.1	FSDP	❌	❌	❌	❌
		Qwen3-14B	GRPO、DAPO、PPO	❌	0.9.1	FSDP	❌	❌	❌	❌
		Qwen3-32B	GRPO、DAPO、PPO	❌	0.9.1	FSDP	❌	❌	❌	❌
多模态	Qwen2.5 VL系列	Qwen2.5-VL-3B	GRPO	❌	0.9.1	FSDP	❌	❌	❌	❌
		Qwen2.5-VL-7B	GRPO、DAPO、PPO	❌	0.9.1	FSDP	❌	❌	❌	❌
		Qwen2.5-VL-32B	GRPO、DAPO、PPO	❌	0.9.1	FSDP	NA	NA	NA	NA
		Qwen2.5-VL-72B	GRPO	❌	0.9.1	FSDP	❌	❌	❌	❌