数据说明

支持数据简介

MindSpeed-LLM框架常用数据集格式：

alpaca格式
sharegpt格式
moss格式

本教程使用到的训练数据集样例是Alpaca数据集。您也可以自行准备数据集。

Alpaca数据集下载链接如下：

预训练(MindSpeed-LLM)：train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。
微调：alpaca_gpt4_data.json，数据大小：43.6 MB。

自定义数据

MindSpeed-LLM：数据格式如下：
- 预训练数据：用户也可以自行准备预训练数据。数据要求如下：
  使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是id、url、title和text。可以指定–json-key标志来选择用于训练的列。详情可参考预训练数据集处理
```
{
    'id': '1',
    'url': 'https://simple.wikipedia.org/wiki/April',
    'title': 'April',
    'text': 'April is the fourth month...'
}                     
```
- MOSS指令微调数据：本案例中还支持MOSS格式数据，标准的.json格式的数据，内容包括可以多轮对话、指令问答。例如以下样例：
```
{
  "conversation_id": 1,
  "meta_instruction": "",
  "num_turns": 3,
  "chat": {
    "turn_1": {
      "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n",
      "Inner Thoughts": "<|Inner Thoughts|>: None<eot>\n",
      "Commands": "<|Commands|>: None<eoc>\n",
      "Tool Responses": "<|Results|>: None<eor>\n",
      "MOSS": "<|MOSS|>: 为了保障xxx些建议：\n\n1.了解相关安xxx最佳实践。\n\n这些xxx环境。<eom>\n"
    },
    "turn_2": { ... },
    "turn_3": { ... },
  "category": "Brainstorming"
}
```
- Alpaca指令微调数据：详情可参考Alpaca风格数据集，数据集包含有以下字段：
  - instruction：描述模型应执行的任务。指令中的每一条都是唯一的。
  - input：任务的可选上下文或输入。instruction 对应的内容会与 input 对应的内容拼接后作为指令，即指令为 instruction\ninput。
  - output：生成的指令的答案。
  - system：系统提示词，用来为整个对话设定场景或提供指导原则。
  - history：一个列表，包含之前轮次的对话记录，每一对都是用户消息和模型回复。这有助于保持对话的一致性和连贯性。
```
[
    {
        "instruction": "人类指令（必填）",
        "input": "人类输入（选填）",
        "output": "模型回答（必填）",
        "system": "系统提示词（选填）",
        "history": [
            ["第一轮指令（选填）", "第一轮回答（选填）"],
            ["第二轮指令（选填）", "第二轮回答（选填）"]
        ]
    }
]
```
- ShareGPT指令微调数据：ShareGPT 格式来源于通过记录 ChatGPT 与用户对话的数据集，主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织，模拟用户与 AI 之间的交互。详情可参考ShareGPT 数据集，数据集包含有以下字段：
  - conversations：包含一系列对话对象，每个对象都由发言者(from)和发言内容(value)组成。
  - from：表示对话的角色，可以是"human"（人类）或"gpt"（机器），表示是谁说的这句话。
  - value：具体的对话内容。
  - system：系统提示词，用来为整个对话设定场景或提供指导原则。
  - tools：描述可用的外部工具或功能的信息，这些工具可能被模型用来执行某些任务或获取更多信息。
```
[
    {
        "conversations": [
            {
                "from": "human",
                "value": "人类指令"
            },
            {
                "from": "function_call",
                "value": "工具参数"
            },
            {
                "from": "observation",
                "value": "工具结果"
            },
            {
                "from": "gpt",
                "value": "模型回答"
            }
            ],
        "system": "系统提示词（选填）",
        "tools": "工具描述（选填）"
    }
]
```