文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 准备盘古大模型训练数据集/ 模型训练所需数据量与数据格式要求

更新时间：2024-09-03 GMT+08:00

模型训练所需数据量与数据格式要求

盘古大模型套件平台支持NLP大模型、多模态大模型的训练。不同模型训练所需的数据量和数据格式有所差异，请基于数据要求提前准备训练数据。

数据量要求

自监督训练

在单次训练任务中，一个自监督训练数据集内，上传的数据文件数量不得超过1000个，单文件大小不得超过1GB，所有文件的总大小不得超过200GB。

表1 自监督训练数据大小说明
模型规格	最小数据量（数据条数）	推荐数据量	单条数据token长度限制
N4-4K版本	1万条/每场景	4GB（等价10亿Tokens）	4096

有监督训练

在单次训练任务中，一个有监督数据集内，上传的数据文件数量不得超过100个，单文件大小不得超过1GB，所有文件的总大小不得超过1GB。

表2 有监督微调数据大小说明
模型规格	最小数据量（数据条数）	单场景推荐训练数据量	单条数据token长度限制	训练集：验证集推荐比例
N1-4K版本	1000条/每场景	≥ 1万条/每场景	4096	10：1
N1-32K版本	1000条/每场景	≥ 1万条/每场景	32768	10：1
N2-4K版本	1000条/每场景	≥ 1万条/每场景	4096	10：1
N2-32K版本	1000条/每场景	≥ 1万条/每场景	32768	10：1
N4-4K版本	1000条/每场景	≥ 1万条/每场景	4096	10：1

训练数据需要依据不同任务场景进行构造。例如，当训练阅读理解任务时，需要选择一些包含大量阅读材料的数据进行训练。当训练广告文案生成任务时，训练数据则需要包含一定量的广告文案数据。

模型评估
一个评估数据集内，上传的数据文件数量不得超过100个，单文件大小不得超过1GB，所有文件的总大小不得超过1GB。

多模态训练

预训练数据
 tar包存储原始的图片，单个tar包的大小不得超过500MB，图片描述JSONL文件只需一份。
指令微调数据
 tar包存储原始的图片，单个tar包的大小不得超过500MB，图片描述JSONL文件只需一份。

图片数据仅支持jpg格式，图片大小不得低于5kb，图片最小边不得低于200px，长边：短边比例不得大于3：1。

表3 多模态数据大小说明
训练类型	最小数据量（图文对数据）	推荐数据量（图文对数据）
预训练	1000万对	5000万对起
指令微调	20~30万对	100万对

数据格式要求

盘古大模型服务支持如下数据，格式要求请参见表4。

表4 盘古数据文件格式要求
数据类型	支持格式	数据样例	是否支持拆分（划分训练集/验证集）
自监督训练数据	TXT、JSONL、PDF、WORD、HTML	编码格式为UTF-8。 #TXT格式，一行对应1条JSON #PDF、WORD、HTML只需上传对应的文档，文档内容为文本 #JSONL {"text":"《活着》，是中国著名作家余华所写的一部长篇小说。《活着》讲述了一个普通农民徐福贵的人生历程。他的人生充满了苦难和挫折，但他在面对这些困难时，始终保持着坚强和乐观的态度。"}	否
有监督微调数据	单轮：CSV、JSONL 多轮：JSONL	编码格式为UTF-8。 #单轮问答示例 #CSV 第一列对应context 第二列对应target #content、target分别表示问题、答案 #JSONL {"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地（国内市外）工作的在职参保人员，可以按照常驻异地工作人员申请办理备案。"} 详细有监督数据格式性参见表5。	是
评测数据	CSV、JSONL	同有监督单轮不带system prompt数据。	否

表4 盘古数据文件格式要求

数据类型

支持格式

数据样例

是否支持拆分（划分训练集/验证集）

自监督训练数据

TXT、JSONL、PDF、WORD、HTML

编码格式为UTF-8。

#TXT格式，一行对应1条JSON
#PDF、WORD、HTML只需上传对应的文档，文档内容为文本
#JSONL
{"text":"《活着》，是中国著名作家余华所写的一部长篇小说。《活着》讲述了一个普通农民徐福贵的人生历程。他的人生充满了苦难和挫折，但他在面对这些困难时，始终保持着坚强和乐观的态度。"}

否

有监督微调数据

单轮：CSV、JSONL

多轮：JSONL

编码格式为UTF-8。

#单轮问答示例
#CSV 第一列对应context 第二列对应target
#content、target分别表示问题、答案
#JSONL
{"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地（国内市外）工作的在职参保人员，可以按照常驻异地工作人员申请办理备案。"}

详细有监督数据格式性参见表5。

是

评测数据

CSV、JSONL

同有监督单轮不带system prompt数据。

否

表5 有监督数据格式
数据类型	格式说明
有监督单轮，JSONL格式	编码格式为UTF-8。每一行表示一段文本，形式为{"context":"context内容","target":"target内容"} content、target分别表示问题、答案 #示例 {"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地（国内市外）工作的在职参保人员，可以按照常驻异地工作人员申请办理备案。"}
有监督单轮，CSV格式	编码格式为UTF-8。每一行代表一个问答对，第一列对应context 第二列对应target，确保每个问题和答案的数据都以逗号分隔，每行的数据完整且格式正确
有监督单轮，带人设，JSONL格式	编码格式为UTF-8。每一行表示一段文本，system不能为空，形式为{"system":"system内容","context":"context内容","target":"target内容"} system、content、target分别表示人设、问题、答案 #示例 {"system":"你是一个知识问答助手","context":"诗仙指的是哪位诗人？","target": "唐代诗人李白为诗仙。"}
有监督多轮，JSONL格式	编码格式为UTF-8。每一行表示一段文本，为数组格式，至少一组问答对，形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}] content、target分别表示问题、答案 #示例 [{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作？","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}]
有监督多轮，带人设，JSONL格式	编码格式为UTF-8。每一行表示一段文本，为数组格式，至少一组问答对，system不能为空，形式为[{"system":"system内容"},{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}] system、content、target分别表示人设、问题、答案 #示例 [{"system":"你是一个知识问答助手"},{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作？","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}]

父主题： 准备盘古大模型训练数据集

上一篇：训练数据集创建流程

下一篇：创建一个新的数据集

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

模型训练所需数据量与数据格式要求

数据量要求

数据格式要求

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线