更新时间:2026-03-09 GMT+08:00
分享

其他类数据集格式要求

除文本、图片、视频、音频数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集,比如常用的开源Alpaca和ShareGPT格式数据集

从OBS导入:单个文件/压缩包大小不超过20GB;多个文件场景,文件数量不限制,总文件大小不超过20GB。

本地上传:单个文件大小不超过1GB,单次上传文件数量最多20个。

本章将介绍常见的开源数据集格式要求。

Alpaca数据集格式要求

Alpaca是开源模型(如DeepSeek系列、Qwen系列等)常用的数据集格式,是开源模型数据微调使用的主要数据集格式。特别用于instruction-tuning,即指令微调。其数据格式的特点是提供了一个明确的任务描述(instruction)、输入(input)和输出(output)三部分。

典型的Alpaca数据集格式:

[
    {
        "instruction": "人类指令(必填)",
        "input": "人类输入(选填)",
        "output": "模型回答(必填)",
        "system": "系统提示词(选填)",
        "history": [
            [
                "第一轮指令(选填)",
                "第一轮回答(选填)"
            ],
            [
                "第二轮指令(选填)",
                "第二轮回答(选填)"
            ]
        ]
    }
]

字段说明:

  • instruction: 任务的指令,告诉模型需要完成什么操作。
  • input: 任务所需的输入。如果任务是开放式的或者不需要明确的输入,这一字段可以为空字符串。
  • output: 任务的期望输出,也就是模型在给定指令和输入情况下需要生成的内容。如果想训练带思考模式的模型,需要加<think></think>标签,或者引导思考的prompt,比如“Let's think step by step”。
  • system:系统提示词(如什么风格、什么角色),该字段可选。
  • history:是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。在指令监督微调时,历史消息中的回答内容也会被用于模型学习,该字段可选。

特点:

  • Alpaca的数据格式结构简单易理解。
  • 任务指令和输入内容是分离的,适合各种自然语言处理任务,如文本生成、翻译、总结等。

ShareGPT数据集格式要求

ShareGPT格式来源于通过记录ChatGPT与用户对话的数据集,主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织,模拟用户与AI之间的交互。ShareGPT格式支持多种角色种类,例如human、gpt、observation、function等。它们按照不同角色对象在conversations列中呈现。

典型的ShareGPT数据集格式:

[
    {
        "conversations": [
            {
                "from": "human",
                "value": "人类指令"
            },
            {
                "from": "function_call",
                "value": "工具参数"
            },
            {
                "from": "observation",
                "value": "工具结果"
            },
            {
                "from": "gpt",
                "value": "模型回答"
            }
        ],
        "system":"系统提示词(选填)",
        "tools": "工具描述(选填)"
    }
]
  • conversations:对话列表,包含每轮对话的角色及其对话内容,必选字段。其角色字段定义如下:
    • human:对话中人类发出的指令。
    • function_call:工具调用,这个工具就是一个AP,提供了某种功能。
    • observation:观测结果,即function_call的执行结果。
    • gpt:大模型根据人类下发指令的回答。

    注意:在角色中human和observation必须出现在奇数位置,gpt和function必须出现在偶数位置。

  • system:系统提示词,可选字段。
  • tools:工具,即对function_call的总结描述,可选字段。

特点:

ShareGPT格式更贴近人类与AI交互的方式,适用于构建和微调对话模型。

选择建议

  • Alpaca格式适用于单轮指令微调,如任务型对话、问答系统或工具调用。其结构化设计简化了模型对明确指令的理解与响应,常用于轻量级微调(如LoRA)或基础能力训练(如文本生成、翻译)。
  • ShareGPT格式专注于多轮对话场景,通过conversations字段记录用户与助手的交互历史,适合训练对话型模型(如聊天机器人、客服助手),尤其在上下文理解、情感对话或复杂推理等需要保持对话连贯性的任务中表现更优。
  • 两者可结合使用,前者强化基础能力,后者提升交互体验。

相关文档