支持的模型列表
模型列表分为表1 大语言模型列表和表2 多模态模型列表,详细如下。
模型系列 |
训练模型 |
训练场景 |
训练框架 |
支持版本 |
开源权重文件获取地址 |
---|---|---|---|---|---|
DeepSeek系列 |
DeepSeek-R1-671B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
|
DeepSeek-V3-671B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main |
|
DeepSeek-V2-Lite 16B |
预训练、Full微调 |
MindSpeed-LLM |
>=6.5.906版本 |
||
Qwen2系列 |
Qwen2-0.5B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
|
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
Qwen2-1.5B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
Qwen2-7B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
Qwen2-72B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
Qwen2.5系列 |
Qwen2.5-0.5B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
|
预训练、微调 |
LlamaFactory |
||||
Qwen2.5-1.5B |
强化学习 |
MindSpeed-RL |
>=6.5.906版本 |
||
Qwen2.5-7B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
预训练、微调 |
LlamaFactory |
||||
强化学习 |
MindSpeed-RL |
>=6.5.906版本 |
|||
Qwen2.5-14B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
强化学习 |
LlamaFactory |
>=6.5.907版本 |
|||
Qwen2.5-32B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
强化学习 |
MindSpeed-RL |
>=6.5.906版本 |
|||
强化学习 |
VeRL |
>=6.5.907版本 |
|||
Qwen2.5-72B |
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
||
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
|||
强化学习 |
LlamaFactory |
>=6.5.907版本 |
|||
Qwen3系列 |
Qwen3-0.6B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.905版本 |
|
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Qwen3-1.7B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.905版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Qwen3-4B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.905版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
强化学习 |
VeRL |
>=6.5.907版本 |
|||
Qwen3-8B |
强化学习 |
VeRL |
>=6.5.906版本 |
||
预训练、微调 |
MindSpeed-LLM |
>=6.5.905版本 |
|||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Qwen3-14B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.905版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Qwen3-32B |
强化学习 |
VeRL |
>=6.5.906版本 |
||
预训练、微调 |
MindSpeed-LLM |
>=6.5.905版本 |
|||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Qwen3-30B-A3B |
预训练、Full微调 |
MindSpeed-LLM |
>=6.5.905版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Qwen3-235b-A22B |
预训练、Full微调 |
MindSpeed-LLM |
>=6.5.905版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
|||
Llama系列 |
Llama3.1 -8B/70B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct |
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
Llama3.2 -1B/3B |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
||
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
glm系列 |
glm-4-9b-chat |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
|
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|||
Mistral AI系列 |
Mixtral-8x7B-Instruct-v0.1 |
预训练、微调 |
MindSpeed-LLM |
>=6.5.902版本 |
模型系列 |
模型名称 |
训练场景 |
训练框架 |
支持版本 |
开源权重文件获取地址↵ |
---|---|---|---|---|---|
Qwen2 VL系列 |
Qwen2-VL-2B |
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
|
Qwen2-VL-7B |
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
||
Qwen2-VL-72B |
预训练、微调 |
LlamaFactory |
>=6.5.902版本 |
||
Qwen2.5 VL系列 |
Qwen2.5-VL-3B |
强化学习 |
VeRL |
>=6.5.906版本 |
|
预训练、微调 |
MindSpeed-MM |
>=6.5.907版本 |
|||
预训练、微调 |
LlamaFactory |
>=6.5.907版本 |
|||
Qwen2.5-VL-7B |
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
||
预训练、微调 |
MindSpeed-MM |
>=6.5.907版本 |
|||
强化学习 |
VeRL |
>=6.5.906版本 |
|||
Qwen2.5-VL-32B |
预训练、微调 |
LlamaFactory |
>=6.5.906版本 |
||
强化学习 |
VeRL |
>=6.5.905版本 |
|||
Qwen2.5-VL-72B |
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
||
强化学习 |
VeRL |
>=6.5.906版本 |
|||
Gemma系列 |
Gemma3-27b |
预训练、微调 |
LlamaFactory |
>=6.5.905版本 |
下线模型
- Llama2/3:llama2-7b/13b/70b、llama3-8b/70b
- Qwen/Qwen1.5:qwen-7b/14b/72b、qwen1.5-7b/14b/32b/72b
- Yi:yi-6b、yi-32b
- BaiChuan2:baichuan2-7b、baichuan2-13b
- mistral-7b、falcon-11B、MiniCPM-2B、MiniCPM3-4B、glm3-6b