文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练推理/ 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）/ LoRA微调训练

更新时间：2024-12-09 GMT+08:00

LoRA微调训练

前提条件

已上传训练代码、训练权重文件和数据集到SFS Turbo中。

Step1 修改训练超参配置

以llama2-13b LORA微调为例，执行脚本0_pl_lora_13b.sh 。

修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

表1 训练超参配置说明
参数	示例值	参数说明
ORIGINAL_TRAIN_DATA_PATH	/home/ma-user/work/training_data/alpaca_gpt4_data.json	必须修改。训练时指定的输入数据路径。请根据实际规划修改。
ORIGINAL_HF_WEIGHT	/home/ma-user/work/models/llama-2-13b-chat-hf	必须修改。加载Hugging Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。
TOKENIZER_PATH	/home/ma-user/work/tokenizers/llama-2-13b-chat-hf	该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEIGHT路径相同。如果用户需要将Hugging Face权重与tokenizer文件分开存放时，则需要修改参数。
INPUT_PROCESSED_DIR	/home/ma-user/work/AscendSpeed/processed_for_input/llama2-13b	该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。如果用户需要修改，可添加并自定义该变量。
OUTPUT_SAVE_DIR	/home/ma-user/work/AscendSpeed/saved_dir_for_output/	该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中，默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改，可添加并自定义该变量。
CKPT_SAVE_PATH	/home/ma-user/work/AscendSpeed/saved_dir_for_output/saved_models/llama2-13b	保存训练生成的模型 CKPT 文件。示例中，默认保存在“saved_dir_for_output/saved_models”文件夹下。如果用户需要修改，可添加并自定义该变量。
LOG_SAVE_PATH	/home/ma-user/work/AscendSpeed/saved_dir_for_output/saved_models/llama2-13b/log	保存训练过程记录的日志 LOG 文件。示例中，默认保存在“saved_models/llama2-13b/log”文件夹下。如果用户需要修改，可添加并自定义该变量。
ASCEND_PROCESS_LOG_PATH	/home/ma-user/work/AscendSpeed/saved_dir_for_output/plog	保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。

对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。

Step2 创建LoRA微调训练任务

创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

图1 选择镜像

如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入：

cd /home/ma-user/work/llm_train/AscendSpeed;
sh ./scripts/install.sh;
sh ./scripts/llama2/0_pl_lora_13b.sh

如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入：

cd /home/ma-user/work/llm_train/AscendSpeed;
sh ./scripts/llama2/0_pl_lora_13b.sh

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。

图2 开启故障重启

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。

如果要使用自动重启功能，资源规格必须选择八卡规格。

注：训练作业中的训练故障自动恢复功能包括：

训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查
无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。

图3 选择资源池规格

新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。

云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/
存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。

图4 选择SFS Turbo

作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。

最后，请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能，可查看模型开发简介。

父主题： 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）

上一篇：SFT全参微调训练

下一篇：查看日志和性能

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

LoRA微调训练

前提条件

Step1 修改训练超参配置

Step2 创建LoRA微调训练任务

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线