各模型支持的训练特性
本章节介绍不同模型在AscendFactory方案中对应各训练框架支持的训练特性。
模型类型 |
模型系列 |
模型 |
预训练、微调 |
强化学习 |
|||||||||||||||||||||
MindSpeed-LLM |
LlamaFactory |
MindSpeed-MM |
VeRL |
MindSpeed-RL |
|||||||||||||||||||||
pre-training、full微调 |
Lora微调 |
多样本pack |
Flash |
SPTD并行 |
长序列并行 |
MOE并行 |
动态句长 |
训练方法 |
Zero并行 |
Flash |
pre-training、full微调 |
SPTD并行 |
分布式优化器 |
重计算 |
训练方法 |
sglang |
vllm |
训练后端 |
训练方法 |
vllm |
训练后端Megatron |
长序列并行 |
|||
微调 |
Attention |
(SP、PP、TP、DP) |
(Ring Attention、Ulysses、混合长序列) |
(专家并行、重排通信优化) |
(PT:预训练) |
(Zero-1、Zero-2、Zero-3) |
Attention |
(SP、PP、TP、DP) |
版本 |
版本 |
版本 |
||||||||||||||
LLM |
DeepSeek系列 |
DeepSeek-R1-671B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
DeepSeek-V3-671B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
DeepSeek-V2-Lite 16B |
✅ |
❌ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen2系列 |
Qwen2-0.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
|
Qwen2-1.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen2-7B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen2-72B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen2.5系列 |
Qwen2.5-0.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
|
Qwen2.5-1.5B |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
GRPO |
0.9.1 |
✅ |
✅ |
||
Qwen2.5-7B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
GRPO |
0.9.1 |
✅ |
✅ |
||
Qwen2.5-14B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT、DPO |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen2.5-32B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
GRPO |
0.9.1 |
✅ |
✅ |
||
Qwen2.5-72B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT、DPO |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen3系列 |
Qwen3-0.6B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
|
Qwen3-1.7B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen3-4B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen3-8B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
GRPO |
❌ |
0.9.1 |
FSDP |
❌ |
❌ |
❌ |
❌ |
||
Qwen3-14B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
❌ |
❌ |
❌ |
❌ |
||
Qwen3-32B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
❌ |
❌ |
❌ |
❌ |
||
Qwen3-30B-A3B |
✅ |
❌ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Qwen3-235b-A22B |
✅ |
❌ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
Llama系列 |
Llama3.1 -8B/70B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
|
Llama3.2 -1B/3B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
||
glm系列 |
glm-4-9b-chat |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
PT、SFT |
✅ |
✅ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
|
Mixtral系列 |
Mixtral-8x7B-Instruct-v0.1 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
|
多模态 |
Qwen2 VL系列 |
Qwen2-VL-2B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
Qwen2-VL-7B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
||
Qwen2-VL-72B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |
||
Qwen2.5 VL系列 |
Qwen2.5-VL-3B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
GRPO |
❌ |
0.9.1 |
FSDP |
NA |
NA |
NA |
NA |
|
Qwen2.5-VL-7B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT、DPO |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
NA |
NA |
NA |
NA |
||
Qwen2.5-VL-32B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
❌ |
❌ |
❌ |
❌ |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
NA |
NA |
NA |
NA |
||
Qwen2.5-VL-72B |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
❌ |
❌ |
❌ |
❌ |
GRPO |
❌ |
0.9.1 |
FSDP |
NA |
NA |
NA |
NA |
||
Gemma系列 |
Gemma3-27b |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
NA |
PT、SFT |
✅ |
✅ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
❌ |
NA |
NA |
NA |
NA |

- NA表示不会规划支持,例如多模态模型不会支持MindSpeed-LLM训练框架。