更新时间:2026-02-09 GMT+08:00
分享

图片类数据集格式要求

ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入多种形式的数据,具体格式要求详见表1

表1 图片类数据集格式要求

文件内容

文件格式

文件要求

图片

图片+jsonl

tar+jsonl

  • 图片:支持jpg、jpeg、png、bmp类型。

  • tar:tar包内图片支持jpg、jpeg、png、bmp图片类型。

  • 根目录下可存在单个annotation.jsonl文件,image_name字段必选。
    {"image_name":"图片名称(abc.jpg)","tar_name":"tar包名称(1.tar)"}
  • 从OBS导入:单个压缩包大小不超过20GB(只支持tar类型的压缩包),单个文件大小不超过20GB;多个文件场景,文件数量不限制,总文件大小不超过20GB。

    本地上传:单个压缩包大小不超过1GB(只支持tar类型的压缩包),单个文件大小不超过1GB,文件数量最多20个。

图片+Caption

tar+jsonl

  • 图片:图片以tar包格式存储,可以多个tar包。tar包存储原始的图片,每张图片命名要求唯一(如abc.jpg)。图片支持jpg、jpeg、png、bmp格式。
  • jsonl:图片描述jsonl文件放在最外层目录,一个tar包对应一个jsonl文件,文件内容中每一行代表一段文本,形式为:
    {"image_name":"图片名称(abc.jpg)","tar_name":"tar包名称(1.tar)","caption":"图片对应的文本描述"}
  • 从OBS导入:单个压缩包大小不超过20GB(只支持tar类型的压缩包),单个文件大小不超过20GB;多个文件场景,文件数量不限制,总文件大小不超过20GB。

    本地上传:单个压缩包大小不超过1GB(只支持tar类型的压缩包),单个文件大小不超过1GB,文件数量最多20个。

相关文档