添加数据集

解释说明

选择存放训练数据集的OBS路径，必须选择到文件。支持选择MOSS、Alpaca和ShareGPT这三种数据集格式。

请按数据集格式要求准备数据，否则会导致调优作业失败。
对于csv、xlsx文件，平台会将其转为Alpaca格式或MOSS格式，具体请参见表1。

表1 模型与数据集格式说明
模型	调优类型	数据集格式（JSONL）	数据集格式（xlsx和csv）
Qwen2.5-72B及其余模型系列（权重格式为Megatron的模型，具体请参见支持Checkpoint查看的模型）	全参微调、LoRA微调	MOSS、Alpaca、ShareGPT	MOSS
Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K	全参微调、LoRA微调	Alpaca、ShareGPT	Alpaca
Qwen2.5-14B	增量预训练	Alpaca	不支持

MOSS数据集格式：JSONL格式

MOSS数据集格式仅支持微调。

JSONL的一行数据就是数据集中的一条样本，建议总的数据样本不少于2000条。数据集示例如下，单轮对话也可以复用此格式。您可以单击下载，获取示例数据集“simple_moss.jsonl”，该数据集可以用于文本生成类型的模型调优。
```
{"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
```
- "conversation_id"：样本编号。
- "chat"：多轮对话的内容。
- "turn_n"：表示是第n次对话，每次对话都有输入（对应Human角色）和输出（对应MOSS角色）。其中Human和MOSS仅用于角色区分，模型训练的内容只有text指代的文本。

Alpaca数据集格式

微调：JSONL格式

{
  "instruction": "计算这些物品的数量之和。 ",
  "input": "输入：汽车 - 3，衣服 - 100，书 - 20。",
  "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"
}

增量预训练：

[
  {"text": "document"},
  {"text": "document"}
]

ShareGPT数据集格式

ShareGPT数据集格式仅支持微调。
ShareGPT格式支持更多的角色种类，例如human、gpt、observation、function等。它们构成一个对象列表呈现在conversations列中。
注意：其中human和observation必须出现在奇数位置，gpt和function必须出现在偶数位置。

示例如下：

[
  {
    "conversations": [
      {
        "from": "human",
        "value": "human instruction"
      },
      {
        "from": "function_call",
        "value": "tool arguments"
      },
      {
        "from": "observation",
        "value": "tool result"
      },
      {
        "from": "gpt",
        "value": "model response"
      }
    ],
    "system": "system prompt (optional)",
    "tools": "tool description (optional)"
  }
]

csv、xlsx

csv和xlsx格式数据集仅支持微调。

表格里的一行数据就是一条样本。表格中仅有3个字段：conversation_id、human和assistant。

conversation_id：对话ID，可以重复，但必须是正整数。如果有多组Human-assiant对话使用同一个ID，则会按照文件中的顺序，将这几组对话编排成一个多轮对话。
human：对话输入，内容不能为空。
assistant：对话输出，内容不能为空。

表2 表格示例
conversation_id	human	assistant
1	text	text

父主题： ModelArts Studio（MaaS）

上一篇：ModelArts Studio（MaaS）

下一篇：超参设置

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

添加数据集

解释说明

相关文档

意见反馈

文档内容是否对您有帮助？