文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练推理/ 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）/ 预训练任务

更新时间：2024-08-17 GMT+08:00

查看PDF

预训练任务

Step1 上传训练权重文件和数据集

如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。

如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。

Step2 修改训练超参配置

以 llama2-70b 和 llama2-13b 预训练 为例，执行脚本为 0_pl_pretrain_70b.sh 和 0_pl_pretrain_13b.sh 。

修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

表1 必须修改的训练超参配置
参数	示例值	参数说明
ORIGINAL_TRAIN_DATA_PATH	/home/ma-user/ws/llm_train/AscendSpeed/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet	必须修改。训练时指定的输入数据路径。请根据实际规划修改。
ORIGINAL_HF_WEIGHT	/home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B	必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。

对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。

Step3 启动训练脚本

请根据Step2 修改训练超参配置修改超参值后，再启动训练脚本。Llama2-70B建议为8机64卡训练。

多机启动

以 Llama2-70B 为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。

进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。

# 多机执行命令为：sh scripts/llama2/0_pl_pretrain_70b.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=8> <NODE_RANK=0>
示例：
# 第一台节点
sh scripts/llama2/0_pl_pretrain_70b.sh  xx.xx.xx.xx  8  0
# 第二台节点 
sh scripts/llama2/0_pl_pretrain_70b.sh  xx.xx.xx.xx  8  1
...
...
# 第八台节点 
sh scripts/llama2/0_pl_pretrain_70b.sh  xx.xx.xx.xx  8  7

以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致；其中MASTER_ADDR、 NODE_RANK、 NODE_RANK 为必填。

单机启动

对于Llama2-7B和Llama2-13B，操作过程与Llama2-70B相同，只需修改对应参数即可，可以选用单机启动，以 Llama2-13B 为例。

进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下，先修改以下命令中的参数，再复制执行。xxx-Ascend请根据实际目录替换。

# 单机执行命令为：sh scripts/llama2/0_pl_pretrain_13b.sh <MASTER_ADDR=localhost> <NNODES=1> <NODE_RANK=0>
示例：
sh scripts/llama2/0_pl_pretrain_13b.sh localhost  1  0

等待模型载入

执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。

图1 等待模型载入

更多查看训练日志和性能操作，请参考查看日志和性能章节。

父主题： 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）

上一篇：准备镜像

下一篇：SFT全参微调训练任务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

预训练任务

Step1 上传训练权重文件和数据集

Step2 修改训练超参配置

Step3 启动训练脚本

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线