将数据预热到SFS Turbo
训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。
在ECS服务器挂载SFS Turbo已经将SFS Turbo挂载到了/mnt/sfs_turbo目录,这里参考obsutil文档,直接使用obsutil命令将OBS桶中的所有数据拷贝到该目录即可。
obsutil cp obs://standard-qwenvl-7b /mnt/sfs_turbo -r -f -flat
结束后可以看到如下目录结构:
/mnt/sfs_turbo
├── training_data
│ └── qwenvl_dataset #数据集目录
│ ├── chart_qa_train_ocr.json # json文件
│ └── new_single_bar # 图片目录
│ └── single_bar_1_1000.jpg
│ └── single_bar_1_1001.jpg
│ └── single_bar_1_1002.jpg
│ └── single_bar_1_1003.jpg
│ ...
├── mllm_train
│ └── train/<commit_id> # 本教程中需要的模型代码
│ └── Dockerfile # 构建镜像
│ └── qwen-vl_install.sh # 安装模型运行环境
│ └── qwen-vl.patch # 使用git apply修改模型相关代码
│
└── models
└── Qwen-VL-Chat