文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练/ LLM大语言模型训练历史版本文档/ 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901）/ 执行训练任务/ 执行训练任务（历史版本）

更新时间：2025-12-15 GMT+08:00

查看PDF

执行训练任务（历史版本）

步骤一上传训练权重文件和数据集

如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。

如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

步骤二修改训练超参配置

以Llama2-70b和Llama2-13b的SFT微调为例，执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。

修改模型训练脚本中的配置，参数详解可查看训练参数说明，其中【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。

对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。

同时开启故障快恢和断点续训时需满足以下条件：

如果用户指定${USER_CONVERTED_CKPT_PATH} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${OUTPUT_SAVE_DIR}/saved_checkpoints 必须为空，否则此参数无效断点续训失效。
如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定MA_TRAIN_AUTO_RESUME =1和 ${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径，加载路径一致。
故障快恢依赖训练过程的权重保存路径。所以如果开启 MA_TRAIN_AUTO_RESUME=1，则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。

步骤三启动训练脚本

修改超参值后启动训练脚本，以 Llama2-70b-sft为例，各个模型NPU卡数可参考模型推荐参数、NPU卡数。

多机启动

多台机器执行训练启动命令如下。进入代码目录 /home/ma-user/ws/llm_train/AscendFactory 下执行启动脚本。

启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：

方法一：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。

多机执行命令为：sh scripts_modellink/llama2/0_pl_sft_70b.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=4> <NODE_RANK=0>
示例：
#第一台节点
sh scripts_modellink/llama2/0_pl_sft_70b.sh  xx.xx.xx.xx  4  0
# 第二台节点 
sh scripts_modellink/llama2/0_pl_sft_70b.sh  xx.xx.xx.xx  4  1
# 第三台节点 
sh scripts_modellink/llama2/0_pl_sft_70b.sh  xx.xx.xx.xx  4  2
# 第四台节点 
sh scripts_modellink/llama2/0_pl_sft_70b.sh  xx.xx.xx.xx  4  3

方法二：定义变量形式：提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值，再执行脚本。

示例：
# 第一台节点
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts_modellink/llama2/0_pl_sft_70b.sh
# 第二台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=1 sh scripts_modellink/llama2/0_pl_sft_70b.sh
# 第三台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=2 sh scripts_modellink/llama2/0_pl_sft_70b.sh
# 第四台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=3 sh scripts_modellink/llama2/0_pl_sft_70b.sh

以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、 NNODES、 NODE_RANK为必填。

单机启动

对于Llama2-7b和Llama2-13b，操作过程与Llama2-70b相同，只需修改对应参数即可，可以选用单机启动，以Llama2-13b为例。

进入代码目录 /home/ma-user/ws/llm_train/AscendFactory 下执行启动脚本，先修改以下命令中的参数，再复制执行。

启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：

方法一：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。

# 单机执行命令为：sh scripts_modellink/llama2/0_pl_sft_13b.sh <MASTER_ADDR=localhost> <NNODES=1> <NODE_RANK=0>
示例：
sh scripts_modellink/llama2/0_pl_sft_13b.sh localhost 1 0

方法二：定义变量形式：提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值，再执行脚本。
```
示例：
MASTER_ADDR=localhost NNODES=1 NODE_RANK=0 sh scripts_modellink/llama2/0_pl_sft_13b.sh
```
注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令：
```
MASTER_ADDR=localhost NNODES=1 NODE_RANK=0 NPUS_PER_NODE=4 sh scripts_modellink/llama2/0_pl_sft_7b.sh
```

最后，请参考查看日志和性能章节查看SFT微调的日志和性能。

父主题： 执行训练任务

上一篇：执行训练任务（推荐）

下一篇：查看日志和性能

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

执行训练任务（历史版本）

步骤一 上传训练权重文件和数据集

步骤二 修改训练超参配置

步骤三 启动训练脚本

相关文档

意见反馈

文档内容是否对您有帮助？

步骤一上传训练权重文件和数据集

步骤二修改训练超参配置

步骤三启动训练脚本