更新时间:2025-07-29 GMT+08:00
分享

SFT全参微调训练

前提条件

已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS

Step1 创建训练任务

创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。

代码目录选择:OBS桶路径下的mllm_train/train/<commit_id>代码目录。
图1 创建训练作业

训练作业启动命令中输入:

cd /home/ma-user/work/Qwen-VL;
ln -s ${DATA}/ qwenvl_dataset;
bash finetune/finetune_ds.sh;

Step2 配置数据输入和输出

单击“增加训练输入”和“增加训练输出”,用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。

  1. 在“输入”的输入框内设置变量:DATA、MODEL。
    • DATA:训练数据集的路径/standard-qwenvl-7b/training_data/qwenvl_dataset/。
    • MODEL:模型权重的路径/standard-qwenvl-7b/models/Qwen-VL-Chat/。
  2. 在“输出”的输入框内设置变量:OUTPUT。

    OUTPUT:训练完成后指定的输出模型的路径/standard-qwenvl-7b/output/。在OBS桶中新建一个output目录,用于训练的输出路径。

  3. 分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。
  4. “输入”和“输出”中的获取方式全部选择为:环境变量。
  5. “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。
图2 输入输出示意图

Step3 配置环境变量

单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。

表1 需要填写的环境变量

环境变量

示例值

参数说明

GPUS_PER_NODE

8

默认必须填写。根据资源规格每个节点上NPU的数量填写。

Step4 开启训练故障自动重启功能

创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。

图3 开启故障重启

Step5 其他配置

选择用户自己的专属资源池,以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。

图4 选择资源池规格

在OBS中新建一个log目录,作业日志选择OBS中的该路径,训练作业的日志信息则保存该路径下。

最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介

相关文档