支持的模型列表
模型列表分为表1 大语言模型列表和表2 多模态模型列表,详细如下。
模型系列 | 训练模型 | 训练场景 | 训练框架 | 支持版本 | 开源权重文件获取地址 |
|---|---|---|---|---|---|
DeepSeek系列 | DeepSeek-R1-671B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | |
DeepSeek-V3-671B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main | |
DeepSeek-V2-Lite 16B | 预训练、Full微调 | MindSpeed-LLM | >=6.5.906版本 | ||
Qwen2系列 | Qwen2-0.5B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | |
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
Qwen2-1.5B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
Qwen2-7B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
Qwen2-72B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
Qwen2.5系列 | Qwen2.5-0.5B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | |
预训练、微调 | LlamaFactory | ||||
Qwen2.5-1.5B | 强化学习 | MindSpeed-RL | >=6.5.906版本 | ||
Qwen2.5-7B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
预训练、微调 | LlamaFactory | ||||
强化学习 | MindSpeed-RL | >=6.5.906版本 | |||
Qwen2.5-14B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
强化学习 | LlamaFactory | >=6.5.907版本 | |||
Qwen2.5-32B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
强化学习 | MindSpeed-RL | >=6.5.906版本 | |||
强化学习 | VeRL | >=6.5.907版本 | |||
Qwen2.5-72B | 预训练、微调 | LlamaFactory | >=6.5.902版本 | ||
预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | |||
强化学习 | LlamaFactory | >=6.5.907版本 | |||
Qwen3系列 | Qwen3-0.6B | 预训练、微调 | MindSpeed-LLM | >=6.5.905版本 | |
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Qwen3-1.7B | 预训练、微调 | MindSpeed-LLM | >=6.5.905版本 | ||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Qwen3-4B | 预训练、微调 | MindSpeed-LLM | >=6.5.905版本 | ||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
强化学习 | VeRL | >=6.5.907版本 | |||
Qwen3-8B | 强化学习 | VeRL | >=6.5.906版本 | ||
预训练、微调 | MindSpeed-LLM | >=6.5.905版本 | |||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Qwen3-14B | 预训练、微调 | MindSpeed-LLM | >=6.5.905版本 | ||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Qwen3-32B | 强化学习 | VeRL | >=6.5.906版本 | ||
预训练、微调 | MindSpeed-LLM | >=6.5.905版本 | |||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Qwen3-30B-A3B | 预训练、Full微调 | MindSpeed-LLM | >=6.5.905版本 | ||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Qwen3-235b-A22B | 预训练、Full微调 | MindSpeed-LLM | >=6.5.905版本 | ||
预训练、微调 | LlamaFactory | >=6.5.905版本 | |||
Llama系列 | Llama3.1 -8B/70B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct |
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
Llama3.2 -1B/3B | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | ||
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
glm系列 | glm-4-9b-chat | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 | |
预训练、微调 | LlamaFactory | >=6.5.902版本 | |||
Mistral AI系列 | Mixtral-8x7B-Instruct-v0.1 | 预训练、微调 | MindSpeed-LLM | >=6.5.902版本 |
模型系列 | 模型名称 | 训练场景 | 训练框架 | 支持版本 | 开源权重文件获取地址↵ |
|---|---|---|---|---|---|
Qwen2 VL系列 | Qwen2-VL-2B | 预训练、微调 | LlamaFactory | >=6.5.902版本 | |
Qwen2-VL-7B | 预训练、微调 | LlamaFactory | >=6.5.902版本 | ||
Qwen2-VL-72B | 预训练、微调 | LlamaFactory | >=6.5.902版本 | ||
Qwen2.5 VL系列 | Qwen2.5-VL-3B | 强化学习 | VeRL | >=6.5.906版本 | |
预训练、微调 | MindSpeed-MM | >=6.5.907版本 | |||
预训练、微调 | LlamaFactory | >=6.5.907版本 | |||
Qwen2.5-VL-7B | 预训练、微调 | LlamaFactory | >=6.5.905版本 | ||
预训练、微调 | MindSpeed-MM | >=6.5.907版本 | |||
强化学习 | VeRL | >=6.5.906版本 | |||
Qwen2.5-VL-32B | 预训练、微调 | LlamaFactory | >=6.5.906版本 | ||
强化学习 | VeRL | >=6.5.905版本 | |||
Qwen2.5-VL-72B | 预训练、微调 | LlamaFactory | >=6.5.905版本 | ||
强化学习 | VeRL | >=6.5.906版本 | |||
Gemma系列 | Gemma3-27b | 预训练、微调 | LlamaFactory | >=6.5.905版本 |
下线模型
- Llama2/3:llama2-7b/13b/70b、llama3-8b/70b
- Qwen/Qwen1.5:qwen-7b/14b/72b、qwen1.5-7b/14b/32b/72b
- Yi:yi-6b、yi-32b
- BaiChuan2:baichuan2-7b、baichuan2-13b
- mistral-7b、falcon-11B、MiniCPM-2B、MiniCPM3-4B、glm3-6b

