更新时间:2025-09-15 GMT+08:00
分享

支持的模型列表

模型列表分为表1 大语言模型列表表2 多模态模型列表,详细如下。

表1 支持的大语言模型列表和权重获取地址

模型系列

训练模型

训练场景

训练框架

支持版本

开源权重文件获取地址

DeepSeek系列

DeepSeek-R1-671B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main

DeepSeek-V3-671B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main

DeepSeek-V2-Lite 16B

预训练、Full微调

MindSpeed-LLM

>=6.5.906版本

https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite

Qwen2系列

Qwen2-0.5B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-0.5B-Instruct

预训练、微调

LlamaFactory

>=6.5.902版本

Qwen2-1.5B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-1.5B-Instruct

Qwen2-7B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-7B-Instruct

预训练、微调

LlamaFactory

>=6.5.902版本

Qwen2-72B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-72B-Instruct

预训练、微调

LlamaFactory

>=6.5.902版本

Qwen2.5系列

Qwen2.5-0.5B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct

预训练、微调

LlamaFactory

Qwen2.5-1.5B

强化学习

MindSpeed-RL

>=6.5.906版本

https://huggingface.co/Qwen/Qwen2.5-1.5B

Qwen2.5-7B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2.5-7B

预训练、微调

LlamaFactory

强化学习

MindSpeed-RL

>=6.5.906版本

Qwen2.5-14B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2.5-14B-Instruct

预训练、微调

LlamaFactory

>=6.5.902版本

强化学习

LlamaFactory

>=6.5.907版本

Qwen2.5-32B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2.5-32B

预训练、微调

LlamaFactory

>=6.5.902版本

强化学习

MindSpeed-RL

>=6.5.906版本

强化学习

VeRL

>=6.5.907版本

Qwen2.5-72B

预训练、微调

LlamaFactory

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct

预训练、微调

MindSpeed-LLM

>=6.5.902版本

强化学习

LlamaFactory

>=6.5.907版本

Qwen3系列

Qwen3-0.6B

预训练、微调

MindSpeed-LLM

>=6.5.905版本

https://huggingface.co/Qwen/Qwen3-0.6B

预训练、微调

LlamaFactory

>=6.5.905版本

Qwen3-1.7B

预训练、微调

MindSpeed-LLM

>=6.5.905版本

https://huggingface.co/Qwen/Qwen3-1.7B

预训练、微调

LlamaFactory

>=6.5.905版本

Qwen3-4B

预训练、微调

MindSpeed-LLM

>=6.5.905版本

https://huggingface.co/Qwen/Qwen3-4B

预训练、微调

LlamaFactory

>=6.5.905版本

强化学习

VeRL

>=6.5.907版本

Qwen3-8B

强化学习

VeRL

>=6.5.906版本

https://huggingface.co/Qwen/Qwen3-8B

预训练、微调

MindSpeed-LLM

>=6.5.905版本

预训练、微调

LlamaFactory

>=6.5.905版本

Qwen3-14B

预训练、微调

MindSpeed-LLM

>=6.5.905版本

https://huggingface.co/Qwen/Qwen3-14B

预训练、微调

LlamaFactory

>=6.5.905版本

Qwen3-32B

强化学习

VeRL

>=6.5.906版本

https://huggingface.co/Qwen/Qwen3-32B

预训练、微调

MindSpeed-LLM

>=6.5.905版本

预训练、微调

LlamaFactory

>=6.5.905版本

Qwen3-30B-A3B

预训练、Full微调

MindSpeed-LLM

>=6.5.905版本

https://huggingface.co/Qwen/Qwen3-30B-A3B

预训练、微调

LlamaFactory

>=6.5.905版本

Qwen3-235b-A22B

预训练、Full微调

MindSpeed-LLM

>=6.5.905版本

https://huggingface.co/Qwen/Qwen3-235B-A22B

预训练、微调

LlamaFactory

>=6.5.905版本

Llama系列

Llama3.1 -8B/70B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct

https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct

预训练、微调

LlamaFactory

>=6.5.902版本

Llama3.2 -1B/3B

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct

https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct

预训练、微调

LlamaFactory

>=6.5.902版本

glm系列

glm-4-9b-chat

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/THUDM/glm-4-9b-chat

预训练、微调

LlamaFactory

>=6.5.902版本

Mistral AI系列

Mixtral-8x7B-Instruct-v0.1

预训练、微调

MindSpeed-LLM

>=6.5.902版本

https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

表2 支持的多模态模型列表和权重获取地址

模型系列

模型名称

训练场景

训练框架

支持版本

开源权重文件获取地址

Qwen2 VL系列

Qwen2-VL-2B

预训练、微调

LlamaFactory

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct/tree/main

Qwen2-VL-7B

预训练、微调

LlamaFactory

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct/tree/main

Qwen2-VL-72B

预训练、微调

LlamaFactory

>=6.5.902版本

https://huggingface.co/Qwen/Qwen2-VL-72B-Instruct

Qwen2.5 VL系列

Qwen2.5-VL-3B

强化学习

VeRL

>=6.5.906版本

https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct

预训练、微调

MindSpeed-MM

>=6.5.907版本

预训练、微调

LlamaFactory

>=6.5.907版本

Qwen2.5-VL-7B

预训练、微调

LlamaFactory

>=6.5.905版本

https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

预训练、微调

MindSpeed-MM

>=6.5.907版本

强化学习

VeRL

>=6.5.906版本

Qwen2.5-VL-32B

预训练、微调

LlamaFactory

>=6.5.906版本

https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

强化学习

VeRL

>=6.5.905版本

Qwen2.5-VL-72B

预训练、微调

LlamaFactory

>=6.5.905版本

https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct

强化学习

VeRL

>=6.5.906版本

Gemma系列

Gemma3-27b

预训练、微调

LlamaFactory

>=6.5.905版本

https://huggingface.co/google/gemma-3-27b-it

下线模型

以下模型不再跟随版本演进,如训练以下模型可参考6.5.901版本训练文档
  • Llama2/3:llama2-7b/13b/70b、llama3-8b/70b
  • Qwen/Qwen1.5:qwen-7b/14b/72b、qwen1.5-7b/14b/32b/72b
  • Yi:yi-6b、yi-32b
  • BaiChuan2:baichuan2-7b、baichuan2-13b
  • mistral-7b、falcon-11B、MiniCPM-2B、MiniCPM3-4B、glm3-6b

相关文档