各模型支持的训练特性
本章节介绍不同模型在AscendFactory方案中对应各训练框架支持的训练特性。
模型类型 | 模型系列 | 模型 | 预训练、微调 | |||||||
|---|---|---|---|---|---|---|---|---|---|---|
MindSpeed-LLM | ||||||||||
pre-training、full微调 | Lora微调 | 多样本pack | Flash | SPTD并行 | 长序列并行 | MOE并行 | 动态句长 | |||
微调 | Attention | (SP、PP、TP、DP) | (Ring Attention、Ulysses、混合长序列) | (专家并行、重排通信优化) | ||||||
LLM | DeepSeek系列 | DeepSeek-R1-671B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
DeepSeek-V3-671B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
DeepSeek-V2-Lite 16B | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2系列 | Qwen2-0.5B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
Qwen2-1.5B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2-7B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2-72B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2.5系列 | Qwen2.5-0.5B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
Qwen2.5-1.5B | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5-7B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2.5-14B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2.5-32B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2.5-72B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3系列 | Qwen3-0.6B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
Qwen3-1.7B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3-4B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3-8B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3-14B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3-32B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3-30B-A3B | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen3-235b-A22B | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Llama系列 | Llama3.1 -8B/70B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
Llama3.2 -1B/3B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
glm系列 | glm-4-9b-chat | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
Mixtral系列 | Mixtral-8x7B-Instruct-v0.1 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
多模态 | Qwen2 VL系列 | Qwen2-VL-2B | NA | NA | NA | NA | NA | NA | NA | NA |
Qwen2-VL-7B | NA | NA | NA | NA | NA | NA | NA | NA | ||
Qwen2-VL-72B | NA | NA | NA | NA | NA | NA | NA | NA | ||
Qwen2.5 VL系列 | Qwen2.5-VL-3B | NA | NA | NA | NA | NA | NA | NA | NA | |
Qwen2.5-VL-7B | NA | NA | NA | NA | NA | NA | NA | NA | ||
Qwen2.5-VL-32B | NA | NA | NA | NA | NA | NA | NA | NA | ||
Qwen2.5-VL-72B | NA | NA | NA | NA | NA | NA | NA | NA | ||
Gemma系列 | Gemma3-27b | NA | NA | NA | NA | NA | NA | NA | NA | |
模型类型 | 模型系列 | 模型 | 预训练、微调 | ||||||
|---|---|---|---|---|---|---|---|---|---|
LlamaFactory | MindSpeed-MM | ||||||||
训练方法(PT:预训练) | Zero并行(Zero-1、Zero-2、Zero-3) | Flash Attention | pre-training、full微调 | SPTD并行(SP、PP、TP、DP) | 分布式优化器 | 重计算 | |||
LLM | Qwen2系列 | Qwen2-0.5B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
Qwen2-7B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2-72B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5系列 | Qwen2.5-0.5B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | |
Qwen2.5-7B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5-14B | PT、SFT、DPO | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5-32B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5-72B | PT、SFT、DPO | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen3系列 | Qwen3-0.6B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | |
Qwen3-1.7B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen3-4B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen3-8B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen3-14B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen3-32B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Llama系列 | Llama3.1 -8B/70B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | |
Llama3.2 -1B/3B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
glm系列 | glm-4-9b-chat | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | |
多模态 | Qwen2 VL系列 | Qwen2-VL-2B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
Qwen2-VL-7B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2-VL-72B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5 VL系列 | Qwen2.5-VL-3B | PT、SFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
Qwen2.5-VL-7B | PT、SFT、DPO | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Qwen2.5-VL-32B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5-VL-72B | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ||
Gemma系列 | Gemma3-27b | PT、SFT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | |
模型类型 | 模型系列 | 模型 | 强化学习 | |||||||
|---|---|---|---|---|---|---|---|---|---|---|
VeRL | MindSpeed-RL | |||||||||
训练方法 | sglang版本 | vllm版本 | 训练后端 | 训练方法 | vllm版本 | 训练后端Megatron | 长序列并行 | |||
LLM | Qwen2.5系列 | Qwen2.5-1.5B | ❌ | ❌ | ❌ | ❌ | GRPO | 0.9.1 | ✅ | ✅ |
Qwen2.5-7B | ❌ | ❌ | ❌ | ❌ | GRPO | 0.9.1 | ✅ | ✅ | ||
Qwen2.5-32B | GRPO、DAPO、PPO | ❌ | 0.9.1 | FSDP | GRPO | 0.9.1 | ✅ | ✅ | ||
Qwen3系列 | Qwen3-8B | GRPO | ❌ | 0.9.1 | FSDP | ❌ | ❌ | ❌ | ❌ | |
Qwen3-14B | GRPO、DAPO、PPO | ❌ | 0.9.1 | FSDP | ❌ | ❌ | ❌ | ❌ | ||
Qwen3-32B | GRPO、DAPO、PPO | ❌ | 0.9.1 | FSDP | ❌ | ❌ | ❌ | ❌ | ||
多模态 | Qwen2.5 VL系列 | Qwen2.5-VL-3B | GRPO | ❌ | 0.9.1 | FSDP | ❌ | ❌ | ❌ | ❌ |
Qwen2.5-VL-7B | GRPO、DAPO、PPO | ❌ | 0.9.1 | FSDP | ❌ | ❌ | ❌ | ❌ | ||
Qwen2.5-VL-32B | GRPO、DAPO、PPO | ❌ | 0.9.1 | FSDP | NA | NA | NA | NA | ||
Qwen2.5-VL-72B | GRPO | ❌ | 0.9.1 | FSDP | ❌ | ❌ | ❌ | ❌ | ||

- NA表示不会规划支持,例如多模态模型不会支持MindSpeed-LLM训练框架。

