SFT全参微调训练
前提条件
已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。
Step1 创建训练任务

训练作业启动命令中输入:
cd /home/ma-user/work/Qwen-VL; ln -s ${DATA}/ qwenvl_dataset; bash finetune/finetune_ds.sh;
选择用户自己的专属资源池,以及规格与节点数。

新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。
- 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/data
- 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。


SFS Turbo不能直接挂载到容器的工作路径 /home/ma-user/work/下,会覆盖镜像中的代码目录,导致训练失败。
作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。
Step2 配置环境变量
单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。
环境变量 |
示例值 |
参数说明 |
---|---|---|
GPUS_PER_NODE |
8 |
必须填写。根据资源规格每个节点上NPU的数量填写。 |
DATA |
/home/ma-user/work/data/training_data/qwenvl_dataset |
必须修改。训练时指定的输入数据路径。 |
MODEL |
/home/ma-user/work/data/models/Qwen-VL-Chat |
必须修改。训练时指定的模型权重路径。 |
OUTPUT |
/home/ma-user/work/data/output |
必须修改。训练完成后指定的输出模型的路径。 |
LOG |
/home/ma-user/work/data/log |
保存训练过程记录的日志LOG文件。 |
Step3 开启训练故障自动重启功能
创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。
