各模型支持的最小卡数和序列长度

模型训练时间、集群规模预测

针对不同模型，集群规格（Snt9b、Snt9b23）、数据集大小等均会导致训练时间、集群卡数规模不同，如训练过程中对卡数或训练时间有要求，可根据以下公式计算预测：

训练时间(秒)：Time=Tok_总/(TPS*N_卡数)*线性加速比，计算出的训练时间为范围值，仅作参考。
训练卡数：N_卡数=Tok_总/(Time*TPS)*线性加速比，N_卡数>8时则需取整为8的倍数且不小于模型最小卡数配置。

参数解释：

总Tokens
指训练数据集的总token数量（即所有样本经过分词器之后生成的token数总和）。

例如：如果数据集有100万个样本，每个样本512个token，则总Tokens = 100万 × 512。

TPS（Tokens Per Second per NPU）
单张NPU每秒能处理的token数量，衡量单卡计算效率的核心指标，各个模型的TPS可在benchmark表格中查找，benchmark中的吞吐值均为固定Seq测出基线值，benchmark表格可向华为工程师咨询。

N卡数
 参与训练的NPU总数量，例如：8卡并行训练时 N=8。

线性加速比
 反映多卡并行时的效率损失（理想值为1，实际<1），典型值：0.9以上（视集群网络和框架优化程度）。

模型最小卡数配置

不同模型推荐的训练参数和计算规格要求如下表所示，目前仅提供微调（SFT）及训练（PT）阶段卡数配置。一般Snt9b规格为单节点8卡，Snt9b23规格为单机8卡=16*DIE，其中1*DIE等效于Snt9b中的1卡，Snt9b23规格实际训练过程中设置并行策略时2*DIE为最小单位；以下配置仅参考，一般小于8卡使用8卡训练，用户可基于卡数配置浮动调动。

表格中“-”代表不支持，规格与卡数中的 4*Ascend在Snt9b中表示4卡，Snt9b23表示4*DIE，以此类推。

表1 模型最小卡数配置
支持模型参数量	训练策略类型	序列长度SEQ_LEN	MindSpeed-LLM规格卡数/DIE		Llama-Factory规格卡数/DIE		VeRL规格卡数/DIE		MindSpeed-RL规格卡数/DIE		MindSpeed-MM规格卡数/DIE
支持模型参数量	训练策略类型	序列长度SEQ_LEN	Snt9b	Snt9b23	Snt9b	Snt9b23	Snt9b	Snt9b23	Snt9b	Snt9b23	Snt9b	Snt9b23
llama3.1-8b	full	4096/8192	4*Ascend		8*Ascend		-	-	-	-	-	-
llama3.1-8b	lora	4096/8192	4*Ascend		1*Ascend	2*Ascend	-	-	-	-	-	-
llama3.1-70b	full	4096	32*Ascend		64*Ascend		-	-	-	-	-	-
	lora	4096	16*Ascend		32*Ascend		-	-	-	-	-	-
	full	8192	64*Ascend		64*Ascend		-	-	-	-	-	-
	lora	8192	16*Ascend		32*Ascend		-	-	-	-	-	-
llama3.2-1b	full/lora	4096/8192	1*Ascend	2*Ascend	1*Ascend	1*Ascend	-	-	-	-	-	-
llama3.2-3b	full	4096/8192	2*Ascend		4*Ascend		-	-	-	-	-	-
llama3.2-3b	lora	4096/8192	1*Ascend	2*Ascend	1*Ascend	2*Ascend	-	-	-	-	-	-
qwen2-0.5b	full/lora	4096/8192	1*Ascend	2*Ascend	1*Ascend	2*Ascend	-	-	-	-	-	-
qwen2-1.5b	full/lora	4096/8192	1*Ascend	2*Ascend	-		-	-	-	-	-	-
qwen2-7b	full	4096	4*Ascend		1*Ascend	2*Ascend	-	-	-	-	-	-
	lora	4096	4*Ascend		8*Ascend		-	-	-	-	-	-
	full	8192	8*Ascend		1*Ascend	2*Ascend	-	-	-	-	-	-
	lora	8192	8*Ascend		8*Ascend		-	-	-	-	-	-
qwen2-72b	full	4096	32*Ascend		64*Ascend		-	-	-	-	-	-
	lora	4096	16*Ascend		32*Ascend		-	-	-	-	-	-
	full	8192	64*Ascend		64*Ascend		-	-	-	-	-	-
	lora	8192	16*Ascend		32*Ascend		-	-	-	-	-	-
qwen2.5-0.5b	full/lora	4096/8192	1*Ascend	2*Ascend	1*Ascend	2*Ascend	-	-	-	-	-	-
qwen2.5- 1.5b	full/lora	4096/8192	1*Ascend	2*Ascend	-		-	-	8*Ascend		-	-
qwen2.5-7b	full	4096	4*Ascend		8*Ascend		8*Ascend	8*Ascend	8*Ascend	8*Ascend	-	-
	lora		2*Ascend		1*Ascend	2*Ascend	8*Ascend	8*Ascend	8*Ascend	8*Ascend	-	-
	grpo		-	-	-	-	-	-	8*Ascend		-	-
	full	8192	8*Ascend		8*Ascend		8*Ascend	8*Ascend	8*Ascend	8*Ascend	-	-
	lora	8192	2*Ascend		1*Ascend	2*Ascend	8*Ascend	8*Ascend	8*Ascend	8*Ascend	-	-
qwen2.5-14b	full	4096	8*Ascend		8*Ascend		8*Ascend	8*Ascend	-	-	-	-
	lora	4096	4*Ascend		4*Ascend		8*Ascend	8*Ascend	-	-	-	-
	full	8192	8*Ascend		16*Ascend		8*Ascend	8*Ascend	-	-	-	-
	lora	8192	8*Ascend		4*Ascend		8*Ascend	8*Ascend	-	-	-	-
qwen2.5-32b	full	4096	16*Ascend		16*Ascend		16*Ascend	16*Ascend	16*Ascend	16*Ascend	-	-
	lora		16*Ascend		8*Ascend		16*Ascend	16*Ascend	16*Ascend	16*Ascend	-	-
	grpo		-	-	-	-	16*Ascend		16*Ascend		-	-
	dapo		-	-	-	-	16*Ascend		-	-	-	-
	ppo		-	-	-	-	16*Ascend		-	-	-	-
	full	8192	16*Ascend		32*Ascend		16*Ascend	16*Ascend	16*Ascend	16*Ascend	-	-
	lora	8192	16*Ascend		16*Ascend		16*Ascend	16*Ascend	16*Ascend	16*Ascend	-	-
qwen2.5-72b	full	4096	32*Ascend		64*Ascend		-	-	-	-	-	-
	lora	4096	16*Ascend		32*Ascend		-	-	-	-	-	-
	full	8192	64*Ascend		64*Ascend		-	-	-	-	-	-
	lora	8192	16*Ascend		32*Ascend		-	-	-	-	-	-
qwen2vl-2b	full	4096/8192	-		2*Ascend		-	-	-	-	-	-
qwen2vl-2b	lora	4096/8192	-		1*Ascend		-	-	-	-	-	-
qwen2vl-7b	full	4096/8192	-		8*Ascend		-	-	-	-	-	-
qwen2vl-7b	lora	4096/8192	-		1*Ascend	2*Ascend	-	-	-	-	-	-
qwen2vl-72b	full	1024	-		32*Ascend		-	-	-	-	-	-
qwen2vl-72b	lora	1024	-		16*Ascend		-	-	-	-	-	-
qwen2.5_vl-3b	full	1024	-		-		-	-	-	-	8*Ascend
qwen2.5_vl-7b	full	1024/4096/8192	-		8*Ascend		8*Ascend	8*Ascend	-	-	8*Ascend
	lora	4096	-		1*Ascend	2*Ascend	8*Ascend	8*Ascend	-	-	-	-
	pretrain	4096	-	-	-	-	-	-	-	-	8*Ascend
	grpo	4096	-	-	-	-	8*Ascend	-	-	-	-	-
	dapo	4096	-	-	-	-	8*Ascend	-	-	-	-	-
	ppo	4096	-	-	-	-	8*Ascend	-	-	-	-	-
qwen2.5_vl-32b	full	4096	-		32*Ascend		16*Ascend		-	-	-	-
	full	8192	-		16*Ascend		-	-	-	-	-	-
	lora	4096/8192	-		16*Ascend		-	-	-	-	-	-
	grpo	4096	-		-		16*Ascend		-	-	-	-
	dapo	4096	-		-		16*Ascend		-	-	-	-
	ppo	4096	-		-		16*Ascend		-	-	-	-
qwen2.5_vl-72b	full	4096/8192	-		64*Ascend		-	-	-	-	-	-
qwen2.5_vl-72b	lora	4096/8192	-		32*Ascend		-	-	-	-	-	-
qwen3-0.6b	full/lora	4096/8192	8*Ascend		8*Ascend		-	-	-	-	-	-
qwen3-1.7b	full/lora	4096/8192	8*Ascend		8*Ascend		-	-	-	-	-	-
qwen3-4b	full/lora	4096/8192	8*Ascend		8*Ascend		-	-	-	-	-	-
qwen3-8b	full/lora	4096/8192	8*Ascend		8*Ascend		8*Ascend		-	-	-	-
qwen3-8b	grpo	4096	-		-		8*Ascend		-	-	-	-
qwen3-14b	full/lora	4096/8192	8*Ascend		8*Ascend		-	-	-	-	-	-
qwen3-14b	dapo	4096	-		-		8*Ascend		-	-	-	-
qwen3-32b	full	4096	16*Ascend		32*Ascend		16*Ascend		-	-	-	-
	full	8192	16*Ascend		32*Ascend		-	-	-	-	-	-
	lora	4096	8*Ascend		8*Ascend		-	-	-	-	-	-
	lora	8192	8*Ascend		16*Ascend		-	-	-	-	-	-
	dapo	4096	-	-	-	-	16*Ascend		-	-	-	-
	grpo	4096	-	-	-	-	16*Ascend		-	-	-	-
	ppo	4096	-	-	-	-	16*Ascend		-	-	-	-
qwen3_moe-30B_A3B	full	4096	16*Ascend		32*Ascend		-	-	-	-	-	-
	full	8192	32*Ascend		64*Ascend		-	-	-	-	-	-
	lora	4096/8192	16*Ascend		32*Ascend		-	-	-	-	-	-
qwen3_moe-235B_A22B	full	4096	256*Ascend		512*Ascend		-	-	-	-	-	-
qwen3_moe-235B_A22B	lora	4096	128*Ascend		256*Ascend		-	-	-	-	-	-
glm4-9b	full	4096/8192	8*Ascend		8*Ascend		-	-	-	-	-	-
glm4-9b	lora	4096/8192	2*Ascend		1*Ascend	2*Ascend	-	-	-	-	-	-
mixtral-8x7b	full	4096/8192	16*Ascend		-		-	-	-	-	-	-
DeepSeek-V3/R1	full	4096	512*Ascend		-		-	-	-	-	-	-
DeepSeek-V3/R1	lora	4096	64*Ascend		-		-	-	-	-	-	-
gemma3-27b	full	4096	-		16*Ascend		-	-	-	-	-	-
	full	8192	-		48*Ascend		-	-	-	-	-	-
	lora	4096/8192	-		16*Ascend		-	-	-	-	-	-