更新时间:2024-08-17 GMT+08:00
分享

准备数据

本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。

数据集下载

本教程使用Alpaca数据集,数据集的介绍及下载链接如下。

Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优,使语言模型更好地遵循指令。

自定义数据

用户也可以自行准备训练数据。数据要求如下:

使用标准的.json格式的数据,通过设置--json-key来指定需要参与训练的列。

请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称,默认为text。在维基百科数据集中,它有四列,分别是id、url、title和text。可以指定–json-key标志来选择用于训练的列。

{
    'id': '1',
    'url': 'https://simple.wikipedia.org/wiki/April',
    'title': 'April',
    'text': 'April is the fourth month...'
}                     

上传数据集至OBS

  1. 准备数据集,例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微调训练数据集下载链接下载数据集。
  2. 创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-llama2-13b中创建文件夹training_data。
  3. 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构:
    obs://<bucket_name>/training_data
           |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  # 训练原始数据集
           |── alpaca_gpt4_data.json                          # 微调数据文件

相关文档