更新时间:2026-04-22 GMT+08:00
分享

各训练框架支持的模型和特性

LlamaFactory支持的模型和关键特性

表1 LlamaFactory支持的模型和关键特性

模型类型

模型系列

模型名称

训练方法(PTSFTDPO

长序列并行

Ulysses

DeepSeed ZeRo并行

FlashAttention

LLM

DeepSeek系列

DeepSeek-R1-671B

x

x

x

x

DeepSeek-V3-671B

x

x

x

x

DeepSeek-V2-Lite 16B

x

x

x

x

Qwen2系列

Qwen2-0.5B

PT、SFT

x

Qwen2-1.5B

x

x

x

x

Qwen2-7B

PT、SFT

x

Qwen2-72B

PT、SFT

x

Qwen2.5系列

Qwen2.5-0.5B

PT、SFT

x

Qwen2.5-1.5B

PT、SFT

x

PT、SFT

PT、SFT

Qwen2.5-7B

PT、SFT

x

Qwen2.5-14B

PT、SFT、DPO

x

Qwen2.5-32B

PT、SFT

x

Qwen2.5-72B

PT、SFT、DPO

x

Qwen3系列

Qwen3-0.6B

PT、SFT

x

Qwen3-1.7B

PT、SFT

x

Qwen3-4B

PT、SFT

x

Qwen3-8B

PT、SFT

x

Qwen3-14B

PT、SFT

x

Qwen3-32B

PT、SFT

x

Llama系列

Llama3.1 -8B/70B

PT、SFT

x

Llama3.2 -1B/3B

PT、SFT

x

glm系列

glm-4-9b-chat

PT、SFT

x

Mixtral系列

Mixtral-8x7B-Instruct-v0.1

x

x

x

x

多模态

Qwen2 VL系列

Qwen2-VL-2B

PT、SFT

x

Qwen2-VL-7B

PT、SFT

x

Qwen2-VL-72B

PT、SFT

x

Qwen2.5 VL系列

Qwen2.5-VL-3B

PT、SFT

x

Qwen2.5-VL-7B

PT、SFT、DPO

Qwen2.5-VL-32B

PT、SFT

x

Qwen2.5-VL-72B

PT、SFT

x

Qwen 3 VL系列

Qwen3-VL-8B

PT、SFT

x

InternVL2.5系列

InternVL2.5-1B

PT、SFT

x

InternVL2.5-2B

PT、SFT

x

InternVL2.5-8B

PT、SFT

x

InternVL3系列

InternVL3-1B

PT、SFT

x

InternVL3-8B

PT、SFT

x

Intern-lm系列

Intern-S1

PT、SFT

x

x

Intern-S1-mini

PT、SFT

x

x

Gemma系列

Gemma3-27b

PT、SFT

x

MindSpeed-LLM支持的模型和关键特性

表2 MindSpeed-LLM支持的模型和关键特性

模型类型

模型系列

模型名称

PT、full微调

LoRA微调

多轮对话微调

Flash attention

SPTD并行

张量并行流水线并行虚拟流水并行序列并行

长序列并行

Ascend Ring Attention 长序列并行Ulysses 长序列并行混合长序列并行

MOE并行

MOE 专家并行MOE 重排通信优化

LLM

DeepSeek系列

DeepSeek-V3-671B

x

DeepSeek-V2-Lite 16B

x

Qwen2

系列

Qwen2-0.5B

x

Qwen2-1.5B

x

Qwen2-7B

x

Qwen2-72B

x

Qwen2.5

系列

Qwen2.5-0.5B

x

Qwen2.5-1.5B

x

Qwen2.5-7B

x

Qwen2.5-14B

x

Qwen2.5-32B

x

Qwen2.5-72B

x

Qwen3系列

Qwen3-0.6B

x

Qwen3-1.7B

x

Qwen3-4B

x

Qwen3-8B

Qwen3-14B

x

Qwen3-32B

x

Qwen3-30B-A3B

x

Qwen3-235b-A22B

x

x

Llama系列

Llama3.1 -8B/70B

x

Llama3.2 -1B/3B

x

glm系列

glm-4-9b-chat

x

Mixtral系列

Mixtral-8x7B-Instruct-v0.1

x

支持多种显存优化特性,包括参数副本分布式优化器swap attention重计算Norm重计算; 支持梯度reduce通算掩盖Recompute in advance权重all-gather通算掩盖MC2CoC等通信优化。

VeRL支持的模型和关键特性

表3 VeRL支持的模型和关键特性

模型类型

模型系列

模型名称

强化学习算法

GRPODAPOPPO

vllm推理后端版本

训练后端

(FSDP、MindSpeed)

one-step-off特性

多轮对话Agent训练特性

LoRA微调

LLM

Qwen2.5系列

Qwen2.5-7B

GRPO

0.11.0

FSDP

x

x

x

Qwen2.5-32B

GRPO、DAPO、PPO

0.11.0

FSDP

x

x

x

Qwen2.5-72B

GRPO、DAPO

0.11.0

FSDP、MindSpeed

x

x

x

Qwen3系列

Qwen3-8B

GRPO、PPO

0.11.0

FSDP、MindSpeed

x

(只支持FSDP)

Qwen3-14B

GRPO、DAPO、PPO

0.11.0

FSDP

x

x

x

Qwen3-32B

GRPO、DAPO、PPO

0.11.0

FSDP、MindSpeed

x

x

x

Qwen3-30B-A3B

GRPO、DAPO

0.11.0

MindSpeed

x

x

多模态

Qwen2.5 VL系列

Qwen2.5-VL-3B

GRPO

0.11.0

FSDP

x

x

x

Qwen2.5-VL-7B

GRPO、DAPO、PPO

0.11.0

FSDP

x

x

x

Qwen2.5-VL-32B

GRPO、DAPO、PPO

0.11.0

FSDP

x

x

x

Qwen2.5-VL-72B

GRPO、DAPO

0.11.0

FSDP

x

x

x

MindSpeed-MM支持的模型和关键特性

表4 MindSpeed-MM支持的模型和关键特性

模型类型

模型系列

模型名称

并行优化

TPTP-SPVPPPP、CP、FSDP2

Megatron 分布式优化器

Megatron重计算(“-”表示当前版本未明确支持)

训练方法

(PT、SFT)

LoRA微调

多模态

Qwen2.5 VL系列

Qwen2.5-VL-3B

TP、TP-SP、PP、CP

PT、full微调

x

Qwen2.5-VL-7B

TP、TP-SP、PP、CP

PT、full微调

x

Qwen3 VL系列

Qwen3-VL-8B

FSDP2

x

-

full微调

x

InternVL3 系列

InternVL3-8B

TP、TP-SP、VPP、PP、CP

PT、full微调

x

相关文档