准备数据（可选）

更新时间：2024-12-17 GMT+08:00

查看PDF

说明：

此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。

本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新代码目录下data/dataset_info.json文件；请务必在dataset_info.json文件中添加数据集描述；具体示例如下。

上传自定义数据到指定目录

将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下：

进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
```
cd  /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
```
将自定义原始数据（指令监督微调样例数据集：alpaca_gpt4_data.json.json）按照下面的数据存放目录要求放置。
说明：

指令微调样例数据集alpaca_gpt4_data.json.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json

数据存放参考目录结构如下：
```
${workdir}（例如/home/ma-user/ws/llm_train ）
  |── LLaMAFactory/data
       |── alpaca_en_demo.json                   # 代码原有数据集
       |── identity.json                         # 代码原有数据集
       ...
       |── alpaca_gpt4_data.json                 # 自定义数据集
```
更新代码目录下data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置，更多样例格式信息请参考data/README_zh.md 的内容。
```
vim dataset_info.json
```
新加配置参数如下：
```
"alpaca_gpt4_data": {
    "file_name": "alpaca_gpt4_data.json"
  },
```
样例截图：

父主题： 准备工作

上一篇：DockerFile构建镜像（可选）

下一篇：执行训练任务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

准备数据（可选）

上传自定义数据到指定目录

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈