训练启动脚本说明和参数配置

更新时间：2024-12-17 GMT+08:00

查看PDF

本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。

import moxing as mox
# OBS存放数据路径
obs_data_dir= "obs://<bucket_name>/data"
# NoteBook存放数据路径 
local_data_dir= "/home/ma-user/work/data"
# OBS数据上传至Notebook
mox.file.copy_parallel(obs_data_dir, local_data_dir)
# Notebook数据上传至OBS
mox.file.copy_parallel(local_data_dir, obs_data_dir)

模型推荐的参数与NPU卡数设置

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。

表1 不同模型推荐的参数与NPU卡数设置
序号	支持模型	支持模型参数量	训练策略类型	文本序列长度（SEQ_LEN）	并行参数设置	micro batch size (MBS)	规格与节点数
1	llama2	llama2-7b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
2		llama2-13b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
3		llama2-70b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
4	llama3	llama3-8b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
5		llama3-70b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
6	Qwen	qwen-7b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
7		qwen-14b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
8		qwen-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
9	Qwen1.5	qwen1.5-7b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
10		qwen1.5-14b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
11		qwen1.5-32b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	4	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	1	2节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
12		qwen1.5-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
13	Yi	yi-6b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
14		yi-34b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4	1	2节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4	2	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
15	ChatGLMv3	glm3-6b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
16	Baichuan2	baichuan2-13b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1	2节点 & 8Ascend
17	Qwen2	qwen2-0.5b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
18		qwen2-1.5b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
19		qwen2-7b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
20		qwen2-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
21	GLMv4	glm4-9b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
22	mistral	mistral-7b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
22	mistral	mistral-7b	lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
23	mixtral	mixtral-8x7b	pretrain/sft	4096	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8	1	2节点 & 8Ascend
23	mixtral	mixtral-8x7b	pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8	1	2节点 & 8Ascend
24	llama3.1	llama3.1-8b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
25		llama3.1-70b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	4	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
26	Qwen2.5	qwen2.5-0.5b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
27		qwen2.5-7b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
28		qwen2.5-14b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
29		qwen2.5-32b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	4	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	1	2节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
30		qwen2.5-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
31	llama3.2	llama3.2-1b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
32		llama3.2-3b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend

父主题： 训练脚本说明

上一篇：训练脚本说明

下一篇：训练的数据集预处理说明

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

训练启动脚本说明和参数配置

模型推荐的参数与NPU卡数设置

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈