各训练框架支持的模型和特性
LlamaFactory支持的模型和关键特性
模型类型 |
模型系列 |
模型名称 |
LlamaFactory |
||||
---|---|---|---|---|---|---|---|
长序列并行 (Ring Attention、Ulysses) |
序列长度(NA表示32k以上未在正式版本中经过测试) |
||||||
LLM |
DeepSeek系列 |
DeepSeek-R1-671B |
❌ |
✅ |
NA |
❌ |
❌ |
DeepSeek-V3-671B |
❌ |
✅ |
NA |
❌ |
❌ |
||
DeepSeek-V2-Lite 16B |
❌ |
✅ |
NA |
❌ |
❌ |
||
Qwen2系列 |
Qwen2-0.5B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
|
Qwen2-1.5B |
❌ |
✅ |
NA |
❌ |
❌ |
||
Qwen2-7B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen2-72B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen2.5系列 |
Qwen2.5-0.5B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
|
Qwen2.5-1.5B |
❌ |
✅ |
NA |
❌ |
❌ |
||
Qwen2.5-7B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen2.5-14B |
PT、SFT、DPO |
✅ |
NA |
✅ |
✅ |
||
Qwen2.5-32B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen2.5-72B |
PT、SFT、DPO |
✅ |
NA |
✅ |
✅ |
||
Qwen3系列 |
Qwen3-0.6B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
|
Qwen3-1.7B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen3-4B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen3-8B |
PT、SFT |
✅ |
Full SFT:32k |
✅ |
✅ |
||
Qwen3-14B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen3-32B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen3-30B-A3B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen3-235b-A22B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Llama系列 |
Llama3.1 -8B/70B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
|
Llama3.2 -1B/3B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
glm系列 |
glm-4-9b-chat |
PT、SFT |
✅ |
NA |
✅ |
✅ |
|
Mixtral系列 |
Mixtral-8x7B-Instruct-v0.1 |
❌ |
✅ |
NA |
❌ |
❌ |
|
多模态 |
Qwen2 VL系列 |
Qwen2-VL-2B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
Qwen2-VL-7B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen2-VL-72B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Qwen2.5 VL系列 |
Qwen2.5-VL-3B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
|
Qwen2.5-VL-7B |
PT、SFT、DPO |
✅ |
Full SFT:32k |
✅ |
✅ |
||
Qwen2.5-VL-32B |
PT、SFT |
✅ |
Full SFT:32k |
✅ |
✅ |
||
Qwen2.5-VL-72B |
PT、SFT |
✅ |
NA |
✅ |
✅ |
||
Gemma系列 |
Gemma3-27b |
PT、SFT |
✅ |
NA |
✅ |
✅ |
MindSpeed-LLM支持的模型和关键特性
模型类型 |
模型系列 |
模型名称 |
MindSpeed-LLM |
|||||||
---|---|---|---|---|---|---|---|---|---|---|
PT、full微调 |
LoRA微调 |
SPTD并行 |
长序列并行 |
序列长度(NA表示32k以上未在正式版本中经过测试) |
MOE并行 |
|||||
LLM |
DeepSeek系列 |
DeepSeek-R1-671B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
DeepSeek-V3-671B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
DeepSeek-V2-Lite 16B |
✅ |
❌ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
Qwen2 系列 |
Qwen2-0.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
|
Qwen2-1.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
Qwen2-7B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
Qwen2-72B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
Qwen2.5 系列 |
Qwen2.5-0.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
|
Qwen2.5-1.5B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen2.5-7B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen2.5-14B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen2.5-32B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen2.5-72B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen3系列 |
Qwen3-0.6B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
|
Qwen3-1.7B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen3-4B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen3-8B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
Qwen3-14B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen3-32B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen3-30B-A3B |
✅ |
❌ |
✅ |
✅ |
✅ |
✅ |
32k |
✅ |
||
Qwen3-235b-A22B |
✅ |
❌ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
Llama系列 |
Llama3.1 -8B/70B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
|
Llama3.2 -1B/3B |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
||
glm系列 |
glm-4-9b-chat |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
|
Mixtral系列 |
Mixtral-8x7B-Instruct-v0.1 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
NA |
✅ |
VeRL支持的模型和关键特性
模型类型 |
模型系列 |
模型名称 |
VeRL |
||||
---|---|---|---|---|---|---|---|
强化学习算法 |
sglang推理后端 |
vllm推理后端版本 |
训练后端 |
序列长度(NA表示32k以上未在正式版本中经过测试) |
|||
LLM |
Qwen2.5系列 |
Qwen2.5-7B |
GRPO |
❌ |
0.9.1 |
FSDP |
NA |
Qwen2.5-32B |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
NA |
||
Qwen2.5-72B |
GRPO、DAPO |
❌ |
0.9.1 |
FSDP、Megatron-LM |
32k |
||
Qwen3系列 |
Qwen3-8B |
GRPO |
❌ |
0.9.1 |
FSDP、Megatron-LM |
32k |
|
Qwen3-14B |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
NA |
||
Qwen3-32B |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP、Megatron-LM |
32k |
||
Qwen3-30B-A3B |
GRPO、DAPO |
❌ |
0.9.1 |
Megatron-LM |
32k |
||
多模态 |
Qwen2.5 VL系列 |
Qwen2.5-VL-3B |
GRPO |
❌ |
0.9.1 |
FSDP |
NA |
Qwen2.5-VL-7B |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
32k |
||
Qwen2.5-VL-32B |
GRPO、DAPO、PPO |
❌ |
0.9.1 |
FSDP |
NA |
||
Qwen2.5-VL-72B |
GRPO、DAPO |
❌ |
0.9.1 |
FSDP |
NA |
MindSpeed-RL支持的模型和关键特性
模型类型 |
模型系列 |
模型名称 |
MindSpeed-RL |
|||
---|---|---|---|---|---|---|
强化学习算法 |
vllm推理后端版本 |
训练后端Megatron |
||||
LLM |
Qwen2.5系列 |
Qwen2.5-1.5B |
GRPO |
0.9.1 |
✅ |
✅ |
Qwen2.5-7B |
GRPO |
0.9.1 |
✅ |
✅ |
||
Qwen2.5-32B |
GRPO |
0.9.1 |
✅ |
✅ |
||
Qwen3系列 |
Qwen3-32B |
GRPO |
0.9.1 |
✅ |
✅ |
|
Qwen3-30B-A3B |
GRPO |
0.9.1 |
✅ |
❌ |
||
多模态 |
Qwen2.5 VL系列 |
Qwen2.5-VL-3B |
GRPO |
0.9.1 |
✅ |
✅ |
Qwen2.5-VL-7B |
GRPO |
0.9.1 |
✅ |
✅ |
MindSpeed-MM支持的模型和关键特性
模型类型 |
模型系列 |
模型名称 |
MindSpeed-MM |
||||
---|---|---|---|---|---|---|---|
并行优化 |
训练方法 (PT、SFT) |
LoRA微调 |
|||||
多模态 |
Qwen2.5 VL系列 |
Qwen2.5-VL-7B |
TP、TP-SP、PP、CP |
✅ |
✅ |
PT、full微调 |
❌ |