更新时间:2025-07-29 GMT+08:00
分享

SFT全参微调训练

前提条件

已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS

Step1 创建训练任务

创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。
图1 创建训练作业

训练作业启动命令中输入:

cd /home/ma-user/work/Qwen-VL;
ln -s ${DATA}/ qwenvl_dataset;
bash finetune/finetune_ds.sh;

选择用户自己的专属资源池,以及规格与节点数。

图2 选择资源池规格

新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。

  • 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/data
  • 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。
图3 选择SFS Turbo

SFS Turbo不能直接挂载到容器的工作路径 /home/ma-user/work/下,会覆盖镜像中的代码目录,导致训练失败。

作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。

最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介

Step2 配置环境变量

单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。

表1 需要填写的环境变量

环境变量

示例值

参数说明

GPUS_PER_NODE

8

必须填写。根据资源规格每个节点上NPU的数量填写。

DATA

/home/ma-user/work/data/training_data/qwenvl_dataset

必须修改。训练时指定的输入数据路径。

MODEL

/home/ma-user/work/data/models/Qwen-VL-Chat

必须修改。训练时指定的模型权重路径。

OUTPUT

/home/ma-user/work/data/output

必须修改。训练完成后指定的输出模型的路径。

LOG

/home/ma-user/work/data/log

保存训练过程记录的日志LOG文件。

Step3 开启训练故障自动重启功能

创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。

图4 开启故障重启

Step4 其他配置

选择用户自己的专属资源池,以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。

图5 选择资源池规格

在OBS中新建一个log目录,作业日志选择OBS中的该路径,训练作业的日志信息则保存该路径下。

最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介

相关文档