其他类数据集格式要求

除文本、图片、视频、音频数据集外，平台还支持导入其他类数据集，即用户训练模型时使用的自定义数据集，例如常用的开源Alpaca和ShareGPT格式数据集。

从OBS导入：单个文件/压缩包大小不超过20GB；多个文件场景，文件数量不限制，总文件大小不超过20GB。

本地上传：单个文件大小不超过1GB，单次上传文件数量最多20个。

本章将介绍常见的开源数据集格式要求。

Alpaca数据集格式要求

Alpaca是开源模型（如DeepSeek系列、Qwen系列等）常用的数据集格式，是开源模型数据微调使用的主要数据集格式。特别用于instruction-tuning，即指令微调。其数据格式的特点是提供了一个明确的任务描述（instruction）、输入（input）和输出（output）三部分。

典型的Alpaca数据集格式：

[
    {
        "instruction": "人类指令（必填）",
        "input": "人类输入（选填）",
        "output": "模型回答（必填）",
        "system": "系统提示词（选填）",
        "history": [
            [
                "第一轮指令（选填）",
                "第一轮回答（选填）"
            ],
            [
                "第二轮指令（选填）",
                "第二轮回答（选填）"
            ]
        ]
    }
]

字段说明：

instruction: 任务的指令，告诉模型需要完成什么操作。
input: 任务所需的输入。如果任务是开放式的或者不需要明确的输入，这一字段可以为空字符串。
output: 任务的期望输出，也就是模型在给定指令和输入情况下需要生成的内容。如果想训练带思考模式的模型，需要加<think></think>标签，或者引导思考的prompt，例如“Let's think step by step”。
system：系统提示词（如什么风格、什么角色），该字段可选。
history：是由多个字符串二元组构成的列表，分别代表历史消息中每轮对话的指令和回答。在指令监督微调时，历史消息中的回答内容也会被用于模型学习，该字段可选。

特点：

Alpaca的数据格式结构简单易理解。
任务指令和输入内容是分离的，适合各种自然语言处理任务，如文本生成、翻译、总结等。

ShareGPT数据集格式要求

ShareGPT格式来源于通过记录ChatGPT与用户对话的数据集，主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织，模拟用户与AI之间的交互。ShareGPT格式支持多种角色种类，例如human、gpt、observation、function等。它们按照不同角色对象在conversations列中呈现。

典型的ShareGPT数据集格式：

[
    {
        "conversations": [
            {
                "from": "human",
                "value": "人类指令"
            },
            {
                "from": "function_call",
                "value": "工具参数"
            },
            {
                "from": "observation",
                "value": "工具结果"
            },
            {
                "from": "gpt",
                "value": "模型回答"
            }
        ],
        "system":"系统提示词（选填）",
        "tools": "工具描述（选填）"
    }
]

conversations：对话列表，包含每轮对话的角色及其对话内容，必选字段。其角色字段定义如下：
- human：对话中人类发出的指令。
- function_call：工具调用，这个工具就是一个AP，提供了某种功能。
- observation：观测结果，即function_call的执行结果。
- gpt：大模型根据人类下发指令的回答。
注意：在角色中human和observation必须出现在奇数位置，gpt和function必须出现在偶数位置。
system：系统提示词，可选字段。

tools：工具，即对function_call的总结描述，可选字段。

特点：

ShareGPT格式更贴近人类与AI交互的方式，适用于构建和微调对话模型。

选择建议

Alpaca格式适用于单轮指令微调，如任务型对话、问答系统或工具调用。其结构化设计简化了模型对明确指令的理解与响应，常用于轻量级微调（如LoRA）或基础能力训练（如文本生成、翻译）。
ShareGPT格式专注于多轮对话场景，通过conversations字段记录用户与助手的交互历史，适合训练对话型模型（如聊天机器人、客服助手），尤其在上下文理解、情感对话或复杂推理等需要保持对话连贯性的任务中表现更优。
两者可结合使用，前者强化基础能力，后者提升交互体验。

父主题： 数据集格式要求

上一篇：音频类数据集格式要求

下一篇：数据连接