准备数据

本教程使用自定义数据集，数据集的介绍及下载链接参考自定义数据。

自定义数据

Qwen-VL指令微调数据：Qwen-VL-Chat微调的数据需要用户自行制作，需要准备一个JSON文件存放训练样本，每个样本需包含id和对话内容。对话内容按user和assistant轮流发言记录。具体的格式需要参考Qwen-VL官方指导资料，示例如下所示：

[
  {
    "id": "identity_0",
    "conversations": [
      {
        "from": "user",
        "value": "你好"
      },
      {
        "from": "assistant",
        "value": "我是Qwen-VL,一个支持视觉输入的大模型。"
      }
    ]
  },
  {
    "id": "identity_1",
    "conversations": [
      {
        "from": "user",
        "value": "Picture 1: <img>qwenvl_dataset/new_single_bar/demo.jpeg</img>\n图中的狗是什么品种？"
      },
      {
        "from": "assistant",
        "value": "图中是一只拉布拉多犬。"
      },
      {
        "from": "user",
        "value": "框出图中的格子衬衫"
      },
      {
        "from": "assistant",
        "value": "<ref>格子衬衫</ref><box>(588,499),(725,789)</box>"
      }
    ]
  },
  { 
    "id": "identity_2",
    "conversations": [
      {
        "from": "user",
        "value": "Picture 1: <img>qwenvl_dataset/new_single_bar/Chongqing.jpeg</img>\nPicture 2: <img>qwenvl_dataset/new_single_bar/Beijing.jpeg</img>\n图中都是哪"
      },
      {
        "from": "assistant",
        "value": "第一张图片是重庆的城市天际线，第二张图片是北京的天际线。"
      }
    ]
  }
]

为针对多样的VL任务，特殊tokens如下： <img> </img> <ref> </ref> <box> </box>.

对于带图像输入的内容可表示为 Picture id: <img>img_path</img>\n{your prompt}，其中id表示对话中的第几张图片。"img_path"可以是本地的图片或网络地址。
对话中的检测框可以表示为<box>(x1,y1),(x2,y2)</box>，其中 (x1, y1) 和(x2, y2)分别对应左上角和右下角的坐标，并且被归一化到[0, 1000)的范围内. 检测框对应的文本描述也可以通过<ref>text_caption</ref>表示。
json文件中的图片路径为数据集相对路径，例如qwenvl_dataset/new_single_bar/Chongqing.jpeg。

上传数据集至OBS

准备数据集。
在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-qwenvl-7b中创建文件夹training_data。

利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构：

obs://standard-qwenvl-7b
└── training_data
           └── qwenvl_dataset                    #数据集目录
               ├── chart_qa_train_ocr.json       # json文件
               └── new_single_bar                # 图片目录
                     └── single_bar_1_1000.jpg
 	                 └── single_bar_1_1001.jpg
 	                 └── single_bar_1_1002.jpg
 	                 └── single_bar_1_1003.jpg
                 	        ...

父主题： 准备工作

上一篇：准备资源

下一篇：准备权重

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

准备数据

自定义数据

上传数据集至OBS

相关文档

意见反馈

文档内容是否对您有帮助？