准备数据(可选)
此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。
本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json文件;请务必在dataset_info.json文件中添加数据集描述。
关于数据集文件的格式及配置,请参考data/README_zh.md的内容。可以使用HuggingFace/ModelScope上的数据集或加载本地数据集。
上传自定义数据到指定目录
将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下:
- 进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
cd /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
- 将自定义原始数据如demo.json放置在此处。
${workdir}(例如/home/ma-user/ws/llm_train ) |── LLaMAFactory/data |── alpaca_en_demo.json # 代码原有数据集 |── identity.json # 代码原有数据集 ... |── demo.json # 自定义数据集
- 更新代码目录下 data/dataset_info.json 文件。关于数据集文件的格式及配置,请参考 data/README_zh.md 的内容。
vim dataset_info.json