各训练框架支持的模型和特性
LlamaFactory支持的模型和关键特性
| 模型类型 | 模型系列 | 模型名称 | 长序列并行 (Ulysses) | |||
|---|---|---|---|---|---|---|
| LLM | DeepSeek系列 | DeepSeek-R1-671B | x | x | x | x |
| DeepSeek-V3-671B | x | x | x | x | ||
| DeepSeek-V2-Lite 16B | x | x | x | x | ||
| Qwen2系列 | Qwen2-0.5B | PT、SFT | x | √ | √ | |
| Qwen2-1.5B | x | x | x | x | ||
| Qwen2-7B | PT、SFT | x | √ | √ | ||
| Qwen2-72B | PT、SFT | x | √ | √ | ||
| Qwen2.5系列 | Qwen2.5-0.5B | PT、SFT | x | √ | √ | |
| Qwen2.5-1.5B | PT、SFT | x | PT、SFT | PT、SFT | ||
| Qwen2.5-7B | PT、SFT | x | √ | √ | ||
| Qwen2.5-14B | PT、SFT、DPO | x | √ | √ | ||
| Qwen2.5-32B | PT、SFT | x | √ | √ | ||
| Qwen2.5-72B | PT、SFT、DPO | x | √ | √ | ||
| Qwen3系列 | Qwen3-0.6B | PT、SFT | x | √ | √ | |
| Qwen3-1.7B | PT、SFT | x | √ | √ | ||
| Qwen3-4B | PT、SFT | x | √ | √ | ||
| Qwen3-8B | PT、SFT | x | √ | √ | ||
| Qwen3-14B | PT、SFT | x | √ | √ | ||
| Qwen3-32B | PT、SFT | x | √ | √ | ||
| Llama系列 | Llama3.1 -8B/70B | PT、SFT | x | √ | √ | |
| Llama3.2 -1B/3B | PT、SFT | x | √ | √ | ||
| glm系列 | glm-4-9b-chat | PT、SFT | x | √ | √ | |
| Mixtral系列 | Mixtral-8x7B-Instruct-v0.1 | x | x | x | x | |
| 多模态 | Qwen2 VL系列 | Qwen2-VL-2B | PT、SFT | x | √ | √ |
| Qwen2-VL-7B | PT、SFT | x | √ | √ | ||
| Qwen2-VL-72B | PT、SFT | x | √ | √ | ||
| Qwen2.5 VL系列 | Qwen2.5-VL-3B | PT、SFT | x | √ | √ | |
| Qwen2.5-VL-7B | PT、SFT、DPO | √ | √ | √ | ||
| Qwen2.5-VL-32B | PT、SFT | x | √ | √ | ||
| Qwen2.5-VL-72B | PT、SFT | x | √ | √ | ||
| Qwen 3 VL系列 | Qwen3-VL-8B | PT、SFT | x | √ | √ | |
| InternVL2.5系列 | InternVL2.5-1B | PT、SFT | x | √ | √ | |
| InternVL2.5-2B | PT、SFT | x | √ | √ | ||
| InternVL2.5-8B | PT、SFT | x | √ | √ | ||
| InternVL3系列 | InternVL3-1B | PT、SFT | x | √ | √ | |
| InternVL3-8B | PT、SFT | x | √ | √ | ||
| Intern-lm系列 | Intern-S1 | PT、SFT | x | √ | x | |
| Intern-S1-mini | PT、SFT | x | √ | x | ||
| Gemma系列 | Gemma3-27b | PT、SFT | x | √ | √ |
MindSpeed-LLM支持的模型和关键特性
| 模型类型 | 模型系列 | 模型名称 | PT、full微调 | LoRA微调 | 多轮对话微调 | SPTD并行 | 长序列并行 | MOE并行 | |
|---|---|---|---|---|---|---|---|---|---|
| LLM | DeepSeek系列 | DeepSeek-V3-671B | √ | √ | x | √ | √ | √ | √ |
| DeepSeek-V2-Lite 16B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2 系列 | Qwen2-0.5B | √ | √ | x | √ | √ | √ | √ | |
| Qwen2-1.5B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2-7B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2-72B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2.5 系列 | Qwen2.5-0.5B | √ | √ | x | √ | √ | √ | √ | |
| Qwen2.5-1.5B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2.5-7B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2.5-14B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2.5-32B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen2.5-72B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen3系列 | Qwen3-0.6B | √ | √ | x | √ | √ | √ | √ | |
| Qwen3-1.7B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen3-4B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen3-8B | √ | √ | √ | √ | √ | √ | √ | ||
| Qwen3-14B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen3-32B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen3-30B-A3B | √ | √ | x | √ | √ | √ | √ | ||
| Qwen3-235b-A22B | √ | x | x | √ | √ | √ | √ | ||
| Llama系列 | Llama3.1 -8B/70B | √ | √ | x | √ | √ | √ | √ | |
| Llama3.2 -1B/3B | √ | √ | x | √ | √ | √ | √ | ||
| glm系列 | glm-4-9b-chat | √ | √ | x | √ | √ | √ | √ | |
| Mixtral系列 | Mixtral-8x7B-Instruct-v0.1 | √ | √ | x | √ | √ | √ | √ |
支持多种显存优化特性,包括参数副本、分布式优化器、swap attention、重计算、Norm重计算; 支持梯度reduce通算掩盖、Recompute in advance、权重all-gather通算掩盖、MC2、CoC等通信优化。
VeRL支持的模型和关键特性
| 模型类型 | 模型系列 | 模型名称 | 强化学习算法 | vllm推理后端版本 | 训练后端 (FSDP、MindSpeed) | one-step-off特性 | 多轮对话Agent训练特性 | LoRA微调 |
|---|---|---|---|---|---|---|---|---|
| LLM | Qwen2.5系列 | Qwen2.5-7B | GRPO | 0.11.0 | FSDP | x | x | x |
| Qwen2.5-32B | GRPO、DAPO、PPO | 0.11.0 | FSDP | x | x | x | ||
| Qwen2.5-72B | GRPO、DAPO | 0.11.0 | FSDP、MindSpeed | x | x | x | ||
| Qwen3系列 | Qwen3-8B | GRPO、PPO | 0.11.0 | FSDP、MindSpeed | √ | x | √ (只支持FSDP) | |
| Qwen3-14B | GRPO、DAPO、PPO | 0.11.0 | FSDP | x | x | x | ||
| Qwen3-32B | GRPO、DAPO、PPO | 0.11.0 | FSDP、MindSpeed | x | x | x | ||
| Qwen3-30B-A3B | GRPO、DAPO | 0.11.0 | MindSpeed | x | √ | x | ||
| 多模态 | Qwen2.5 VL系列 | Qwen2.5-VL-3B | GRPO | 0.11.0 | FSDP | x | x | x |
| Qwen2.5-VL-7B | GRPO、DAPO、PPO | 0.11.0 | FSDP | x | x | x | ||
| Qwen2.5-VL-32B | GRPO、DAPO、PPO | 0.11.0 | FSDP | x | x | x | ||
| Qwen2.5-VL-72B | GRPO、DAPO | 0.11.0 | FSDP | x | x | x |
MindSpeed-MM支持的模型和关键特性
| 模型类型 | 模型系列 | 模型名称 | 并行优化 | Megatron重计算(“-”表示当前版本未明确支持) | 训练方法 (PT、SFT) | LoRA微调 | |
|---|---|---|---|---|---|---|---|
| 多模态 | Qwen2.5 VL系列 | Qwen2.5-VL-3B | TP、TP-SP、PP、CP | √ | √ | PT、full微调 | x |
| Qwen2.5-VL-7B | TP、TP-SP、PP、CP | √ | √ | PT、full微调 | x | ||
| Qwen3 VL系列 | Qwen3-VL-8B | FSDP2 | x | - | full微调 | x | |
| InternVL3 系列 | InternVL3-8B | TP、TP-SP、VPP、PP、CP | √ | √ | PT、full微调 | x |