文档首页/
AI开发平台ModelArts/
最佳实践/
MLLM多模态模型训练推理/
Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)/
准备工作/
准备数据
更新时间:2025-07-29 GMT+08:00
准备数据
本教程使用自定义数据集,数据集的介绍及下载链接参考自定义数据。
自定义数据
- Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言记录。具体的格式需要参考Qwen-VL官方指导资料,示例如下所示:
[ { "id": "identity_0", "conversations": [ { "from": "user", "value": "你好" }, { "from": "assistant", "value": "我是Qwen-VL,一个支持视觉输入的大模型。" } ] }, { "id": "identity_1", "conversations": [ { "from": "user", "value": "Picture 1: <img>qwenvl_dataset/new_single_bar/demo.jpeg</img>\n图中的狗是什么品种?" }, { "from": "assistant", "value": "图中是一只拉布拉多犬。" }, { "from": "user", "value": "框出图中的格子衬衫" }, { "from": "assistant", "value": "<ref>格子衬衫</ref><box>(588,499),(725,789)</box>" } ] }, { "id": "identity_2", "conversations": [ { "from": "user", "value": "Picture 1: <img>qwenvl_dataset/new_single_bar/Chongqing.jpeg</img>\nPicture 2: <img>qwenvl_dataset/new_single_bar/Beijing.jpeg</img>\n图中都是哪" }, { "from": "assistant", "value": "第一张图片是重庆的城市天际线,第二张图片是北京的天际线。" } ] } ]
为针对多样的VL任务,特殊tokens如下: <img> </img> <ref> </ref> <box> </box>.
- 对于带图像输入的内容可表示为 Picture id: <img>img_path</img>\n{your prompt},其中id表示对话中的第几张图片。"img_path"可以是本地的图片或网络地址。
- 对话中的检测框可以表示为<box>(x1,y1),(x2,y2)</box>,其中 (x1, y1) 和(x2, y2)分别对应左上角和右下角的坐标,并且被归一化到[0, 1000)的范围内. 检测框对应的文本描述也可以通过<ref>text_caption</ref>表示。
- json文件中的图片路径为数据集相对路径,例如qwenvl_dataset/new_single_bar/Chongqing.jpeg。
上传数据集至OBS
- 准备数据集。
- 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-qwenvl-7b中创建文件夹training_data。
- 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构:
obs://standard-qwenvl-7b └── training_data └── qwenvl_dataset #数据集目录 ├── chart_qa_train_ocr.json # json文件 └── new_single_bar # 图片目录 └── single_bar_1_1000.jpg └── single_bar_1_1001.jpg └── single_bar_1_1002.jpg └── single_bar_1_1003.jpg ...
父主题: 准备工作