准备数据（可选）

更新时间：2024-09-14 GMT+08:00

查看PDF

说明：

此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。

本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前指令微调数据集支持alpaca格式和sharegpt格式的数据集；使用自定义数据集时，请更新代码目录下data/dataset_info.json文件；请务必在dataset_info.json文件中添加数据集描述。

关于数据集文件的格式及配置，请参考data/README_zh.md的内容。可以使用HuggingFace/ModelScope上的数据集或加载本地数据集。

上传自定义数据到指定目录

将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下：

进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
```
cd  /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
```

将自定义原始数据如demo.json放置在此处。

数据存放参考目录结构如下：

${workdir}（例如/home/ma-user/ws/llm_train ）
  |── LLaMAFactory/data
       |── alpaca_en_demo.json                   # 代码原有数据集
       |── identity.json                         # 代码原有数据集
       ...
       |── demo.json                             # 自定义数据集

更新代码目录下 data/dataset_info.json 文件。关于数据集文件的格式及配置，请参考 data/README_zh.md 的内容。
```
vim dataset_info.json
```

父主题： 准备工作

上一篇：准备镜像环境

下一篇：指令监督微调训练任务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

准备数据（可选）

上传自定义数据到指定目录

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈