更新时间:2025-11-12 GMT+08:00
分享

各模型支持的训练特性

本章节介绍不同模型在AscendFactory方案中对应各训练框架支持的训练特性。

模型类型

模型系列

模型

预训练、微调

MindSpeed-LLM

pre-training、full微调

Lora微调

多样本pack

Flash

SPTD并行

长序列并行

MOE并行

动态句长

微调

Attention

(SP、PP、TP、DP)

(Ring Attention、Ulysses、混合长序列)

(专家并行、重排通信优化)

LLM

DeepSeek系列

DeepSeek-R1-671B

DeepSeek-V3-671B

DeepSeek-V2-Lite 16B

Qwen2系列

Qwen2-0.5B

Qwen2-1.5B

Qwen2-7B

Qwen2-72B

Qwen2.5系列

Qwen2.5-0.5B

Qwen2.5-1.5B

Qwen2.5-7B

Qwen2.5-14B

Qwen2.5-32B

Qwen2.5-72B

Qwen3系列

Qwen3-0.6B

Qwen3-1.7B

Qwen3-4B

Qwen3-8B

Qwen3-14B

Qwen3-32B

Qwen3-30B-A3B

Qwen3-235b-A22B

Llama系列

Llama3.1 -8B/70B

Llama3.2 -1B/3B

glm系列

glm-4-9b-chat

Mixtral系列

Mixtral-8x7B-Instruct-v0.1

多模态

Qwen2 VL系列

Qwen2-VL-2B

NA

NA

NA

NA

NA

NA

NA

NA

Qwen2-VL-7B

NA

NA

NA

NA

NA

NA

NA

NA

Qwen2-VL-72B

NA

NA

NA

NA

NA

NA

NA

NA

Qwen2.5 VL系列

Qwen2.5-VL-3B

NA

NA

NA

NA

NA

NA

NA

NA

Qwen2.5-VL-7B

NA

NA

NA

NA

NA

NA

NA

NA

Qwen2.5-VL-32B

NA

NA

NA

NA

NA

NA

NA

NA

Qwen2.5-VL-72B

NA

NA

NA

NA

NA

NA

NA

NA

Gemma系列

Gemma3-27b

NA

NA

NA

NA

NA

NA

NA

NA

模型类型

模型系列

模型

预训练、微调

LlamaFactory

MindSpeed-MM

训练方法(PT:预训练)

Zero并行(Zero-1、Zero-2、Zero-3)

Flash Attention

pre-training、full微调

SPTD并行(SP、PP、TP、DP)

分布式优化器

重计算

LLM

Qwen2系列

Qwen2-0.5B

PT、SFT

Qwen2-7B

PT、SFT

Qwen2-72B

PT、SFT

Qwen2.5系列

Qwen2.5-0.5B

PT、SFT

Qwen2.5-7B

PT、SFT

Qwen2.5-14B

PT、SFT、DPO

Qwen2.5-32B

PT、SFT

Qwen2.5-72B

PT、SFT、DPO

Qwen3系列

Qwen3-0.6B

PT、SFT

Qwen3-1.7B

PT、SFT

Qwen3-4B

PT、SFT

Qwen3-8B

PT、SFT

Qwen3-14B

PT、SFT

Qwen3-32B

PT、SFT

Llama系列

Llama3.1 -8B/70B

PT、SFT

Llama3.2 -1B/3B

PT、SFT

glm系列

glm-4-9b-chat

PT、SFT

多模态

Qwen2 VL系列

Qwen2-VL-2B

PT、SFT

Qwen2-VL-7B

PT、SFT

Qwen2-VL-72B

PT、SFT

Qwen2.5 VL系列

Qwen2.5-VL-3B

PT、SFT

Qwen2.5-VL-7B

PT、SFT、DPO

Qwen2.5-VL-32B

PT、SFT

Qwen2.5-VL-72B

PT、SFT

Gemma系列

Gemma3-27b

PT、SFT

模型类型

模型系列

模型

强化学习

VeRL

MindSpeed-RL

训练方法

sglang版本

vllm版本

训练后端

训练方法

vllm版本

训练后端Megatron

长序列并行

LLM

Qwen2.5系列

Qwen2.5-1.5B

GRPO

0.9.1

Qwen2.5-7B

GRPO

0.9.1

Qwen2.5-32B

GRPO、DAPO、PPO

0.9.1

FSDP

GRPO

0.9.1

Qwen3系列

Qwen3-8B

GRPO

0.9.1

FSDP

Qwen3-14B

GRPO、DAPO、PPO

0.9.1

FSDP

Qwen3-32B

GRPO、DAPO、PPO

0.9.1

FSDP

多模态

Qwen2.5 VL系列

Qwen2.5-VL-3B

GRPO

0.9.1

FSDP

Qwen2.5-VL-7B

GRPO、DAPO、PPO

0.9.1

FSDP

Qwen2.5-VL-32B

GRPO、DAPO、PPO

0.9.1

FSDP

NA

NA

NA

NA

Qwen2.5-VL-72B

GRPO

0.9.1

FSDP

  • NA表示不会规划支持,例如多模态模型不会支持MindSpeed-LLM训练框架。

相关文档