添加数据集
解释说明
模型 |
调优类型 |
数据集格式(JSONL) |
数据集格式(xlsx和csv) |
---|---|---|---|
Qwen2.5-72B及其余模型系列(权重格式为Megatron的模型,具体请参见支持Checkpoint查看的模型) |
全参微调、LoRA微调 |
MOSS、Alpaca、ShareGPT |
MOSS |
Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K |
全参微调、LoRA微调 |
Alpaca、ShareGPT |
Alpaca |
Qwen2.5-14B |
增量预训练 |
Alpaca |
不支持 |
- MOSS数据集格式:JSONL格式
MOSS数据集格式仅支持微调。
JSONL的一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条。数据集示例如下,单轮对话也可以复用此格式。您可以单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。
{"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
- "conversation_id":样本编号。
- "chat":多轮对话的内容。
- "turn_n":表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。
- Alpaca数据集格式
- 微调:JSONL格式
{ "instruction": "计算这些物品的数量之和。 ", "input": "输入:汽车 - 3,衣服 - 100,书 - 20。", "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。" }
- 增量预训练:
[ {"text": "document"}, {"text": "document"} ]
- 微调:JSONL格式
- ShareGPT数据集格式
示例如下:
[ { "conversations": [ { "from": "human", "value": "human instruction" }, { "from": "function_call", "value": "tool arguments" }, { "from": "observation", "value": "tool result" }, { "from": "gpt", "value": "model response" } ], "system": "system prompt (optional)", "tools": "tool description (optional)" } ]
- csv、xlsx
csv和xlsx格式数据集仅支持微调。
表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。
- conversation_id:对话ID,可以重复,但必须是正整数。如果有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
- human:对话输入,内容不能为空。
- assistant:对话输出,内容不能为空。
表2 表格示例 conversation_id
human
assistant
1
text
text