更新时间:2025-09-12 GMT+08:00
分享

添加数据集

解释说明

选择存放训练数据集的OBS路径,必须选择到文件。支持选择MOSS、Alpaca和ShareGPT这三种数据集格式。
  • 请按数据集格式要求准备数据,否则会导致调优作业失败。
  • 对于csv、xlsx文件,平台会将其转为Alpaca格式或MOSS格式,具体请参见表1
表1 模型与数据集格式说明

模型

调优类型

数据集格式(JSONL)

数据集格式(xlsx和csv)

Qwen2.5-72B及其余模型系列(权重格式为Megatron的模型,具体请参见支持Checkpoint查看的模型

全参微调、LoRA微调

MOSS、Alpaca、ShareGPT

MOSS

Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K

全参微调、LoRA微调

Alpaca、ShareGPT

Alpaca

Qwen2.5-14B

增量预训练

Alpaca

不支持

  1. MOSS数据集格式:JSONL格式

    MOSS数据集格式仅支持微调。

    JSONL的一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条。数据集示例如下,单轮对话也可以复用此格式。您可以单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。

    {"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
    • "conversation_id":样本编号。
    • "chat":多轮对话的内容。
    • "turn_n":表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。
  2. Alpaca数据集格式
    1. 微调:JSONL格式
      {
        "instruction": "计算这些物品的数量之和。 ",
        "input": "输入:汽车 - 3,衣服 - 100,书 - 20。",
        "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"
      }
    2. 增量预训练:
      [
        {"text": "document"},
        {"text": "document"}
      ]
  3. ShareGPT数据集格式
    • ShareGPT数据集格式仅支持微调。
    • ShareGPT格式支持更多的角色种类,例如human、gpt、observation、function等。它们构成一个对象列表呈现在conversations列中。

      注意:其中human和observation必须出现在奇数位置,gpt和function必须出现在偶数位置。

    示例如下:

    [
      {
        "conversations": [
          {
            "from": "human",
            "value": "human instruction"
          },
          {
            "from": "function_call",
            "value": "tool arguments"
          },
          {
            "from": "observation",
            "value": "tool result"
          },
          {
            "from": "gpt",
            "value": "model response"
          }
        ],
        "system": "system prompt (optional)",
        "tools": "tool description (optional)"
      }
    ]
  4. csv、xlsx

    csv和xlsx格式数据集仅支持微调。

    表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。

    • conversation_id:对话ID,可以重复,但必须是正整数。如果有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
    • human:对话输入,内容不能为空。
    • assistant:对话输出,内容不能为空。
    表2 表格示例

    conversation_id

    human

    assistant

    1

    text

    text

相关文档