训练启动脚本说明和参数配置

更新时间：2025-01-18 GMT+08:00

查看PDF

本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置，在下面的指导步骤中，会展开进行详细的解释。

若用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，可编辑参数以及详细介绍如下。以 llama2-70b 预训练为例。

表1 模型训练脚本参数
参数	示例值	参数说明
ORIGINAL_TRAIN_DATA_PATH	/home/ma-user/ws/training_data/pretrain/alpaca.parquet	必须修改。训练时指定的输入数据路径。请根据实际规划修改。
ORIGINAL_HF_WEIGHT	/home/ma-user/ws/model/llama2-70B	必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。
SHELL_FOLDER	$(dirname $(readlink -f "$0"))	表示执行脚本时的路径。
MODEL_NAME	llama2-70b	对应模型名称。
RUN_TYPE	pretrain	表示训练类型。可选择值：[pretrain, sft, lora]。
DATA_TYPE	[GeneralPretrainHandler, GeneralInstructionHandler, MOSSInstructionHandler]	示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集。
MBS	1	表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。
GBS	128	表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
TP	8	表示张量并行。
PP	8	表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。
CP	1	表示context并行，默认为1。应用于训练长序列文本的模型。若训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP ≥ 2）。对应训练参数 context-parallel-size 。（此参数目前仅适用于Llama3系列模型长序列训练）
LR	2.5e-5	学习率设置。
MIN_LR	2.5e-6	最小学习率设置。
SEQ_LEN	4096	要处理的最大序列长度。
MAX_PE	8192	设置模型能够处理的最大序列长度。
SN	1200	必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。
EPOCH	5	表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。
TRAIN_ITERS	SN / GBS * EPOCH	非必填。表示训练step迭代次数，根据实际需要修改。
SEED	1234	随机种子数。每次数据采样时，保持一致。

模型参数设置规定

TP张量并行、PP流水线并行、CP context并行的参数设置：TP×PP×CP的值要被NPU数量（word_size）整除。
TP×CP的值要被模型参数中 num_attention_heads 整除。
MBS（micro-batch-size）、GBS（global-batch-size）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。

模型推荐的参数与NPU卡数设置

不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。

表2 不同模型推荐的参数与NPU卡数设置
序号	支持模型	支持模型参数量	文本序列长度	并行参数设置	规格与节点数
1	llama2	llama2-7b	SEQ_LEN=4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1节点 & 8Ascend
1		llama2-7b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1节点 & 8Ascend
2		llama2-13b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
2		llama2-13b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
3		llama2-70b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
3		llama2-70b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	8节点 & 8Ascend
4	llama3	llama3-8b	SEQ_LEN=4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
4		llama3-8b	SEQ_LEN=8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
5		llama3-70b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
5		llama3-70b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	8节点 & 8Ascend
6	Qwen	qwen-7b	SEQ_LEN=4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
6		qwen-7b	SEQ_LEN=8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
7		qwen-14b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
7		qwen-14b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
8		qwen-72b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
8		qwen-72b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	8节点 & 8Ascend
9	Qwen1.5	qwen1.5-7b	SEQ_LEN=4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
9		qwen1.5-7b	SEQ_LEN=8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
10		qwen1.5-14b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
10		qwen1.5-14b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
11		qwen1.5-32b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2节点 & 8Ascend
11		qwen1.5-32b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
12		qwen1.5-72b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
12		qwen1.5-72b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	8节点 & 8Ascend
13	Yi	yi-6b	SEQ_LEN=4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1节点 & 8Ascend
13		yi-6b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1节点 & 8Ascend
14		yi-34b	SEQ_LEN=4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4	2节点 & 8Ascend
14		yi-34b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
15	ChatGLMv3	glm3-6b	SEQ_LEN=4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1节点 & 8Ascend
15	ChatGLMv3	glm3-6b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1节点 & 8Ascend
16	Baichuan2	baichuan2-13b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
16	Baichuan2	baichuan2-13b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1节点 & 8Ascend
17	Qwen2	qwen2-0.5b	SEQ_LEN=4096	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1	1节点 & 4Ascend
17		qwen2-0.5b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1	1节点 & 4Ascend
18		qwen2-1.5b	SEQ_LEN=4096	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1	1节点 & 4Ascend
18		qwen2-1.5b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1	1节点 & 4Ascend
19		qwen2-7b	SEQ_LEN=4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
19		qwen2-7b	SEQ_LEN=8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 8Ascend
20		qwen2-72b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
20		qwen2-72b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	8节点 & 8Ascend
21	GLMv4	glm4-9b	SEQ_LEN=4096	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1节点 & 8Ascend
21	GLMv4	glm4-9b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1节点 & 8Ascend
22	mistral	mistral-7b	SEQ_LEN=4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1节点 & 8Ascend
23	mixtral	mixtral-8x7b	SEQ_LEN=4096	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8	2节点 & 8Ascend
23	mixtral	mixtral-8x7b	SEQ_LEN=8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8	2节点 & 8Ascend
24	llama3.1	llama3.1-8b	SEQ_LEN=4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 4Ascend
24		llama3.1-8b	SEQ_LEN=8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1节点 & 4Ascend
25		llama3.1-70b	SEQ_LEN=4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4节点 & 8Ascend
25		llama3.1-70b	SEQ_LEN=8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	8节点 & 8Ascend

父主题： 训练脚本说明

上一篇：训练脚本说明

下一篇：训练的数据集预处理说明

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

训练启动脚本说明和参数配置

模型参数设置规定

模型推荐的参数与NPU卡数设置

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈