模型训练所需数据量与数据格式要求
盘古大模型套件平台支持NLP大模型的训练。不同模型训练所需的数据量和数据格式有所差异,请基于数据要求提前准备训练数据。
数据量要求
- 自监督训练
在单次训练任务中,一个自监督训练数据集内,上传的数据文件数量不得超过1000个,单文件大小不得超过1GB,所有文件的总大小不得超过200GB。
表1 自监督训练数据大小说明 模型规格
最小数据量(数据条数)
推荐数据量
单条数据token长度限制
N4-4K版本
1万条/每场景
4GB(等价10亿Tokens)
4096
- 有监督训练
在单次训练任务中,一个有监督数据集内,上传的数据文件数量不得超过100个,单文件大小不得超过1GB,所有文件的总大小不得超过1GB。
表2 有监督微调数据大小说明 模型规格
最小数据量(数据条数)
单场景推荐训练数据量
单条数据token长度限制
训练集:验证集推荐比例
N1-4K版本
1000条/每场景
≥ 1万条/每场景
4096
10:1
N1-32K版本
1000条/每场景
≥ 1万条/每场景
32768
10:1
N2-4K版本
1000条/每场景
≥ 1万条/每场景
4096
10:1
N2-32K版本
1000条/每场景
≥ 1万条/每场景
32768
10:1
N4-4K版本
1000条/每场景
≥ 1万条/每场景
4096
10:1
训练数据需要依据不同任务场景进行构造。例如,当训练阅读理解任务时,需要选择一些包含大量阅读材料的数据进行训练。当训练广告文案生成任务时,训练数据则需要包含一定量的广告文案数据。
- 模型评估
一个评估数据集内,上传的数据文件数量不得超过100个,单文件大小不得超过1GB,所有文件的总大小不得超过1GB。
数据格式要求
盘古大模型服务支持如下数据,格式要求请参见表3。
数据类型 |
支持格式 |
数据样例 |
是否支持拆分(划分训练集/验证集) |
---|---|---|---|
自监督训练数据 |
TXT、JSONL、PDF、WORD、HTML |
编码格式为UTF-8。 #TXT格式,一行对应1条JSON #PDF、WORD、HTML只需上传对应的文档,文档内容为文本 #JSONL {"text":"《活着》,是中国著名作家余华所写的一部长篇小说。《活着》讲述了一个普通农民徐福贵的人生历程。他的人生充满了苦难和挫折,但他在面对这些困难时,始终保持着坚强和乐观的态度。"} |
否 |
有监督微调数据 |
单轮:CSV、JSONL 多轮:JSONL |
编码格式为UTF-8。 #单轮问答示例 #CSV 第一列对应context 第二列对应target #content、target分别表示问题、答案 #JSONL {"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"} 详细有监督数据格式性参见表4。 |
是 |
评测数据 |
CSV、JSONL |
同有监督单轮不带system prompt数据。 |
否 |
数据类型 |
格式说明 |
---|---|
有监督单轮,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,形式为{"context":"context内容","target":"target内容"} content、target分别表示问题、答案 #示例 {"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"} |
有监督单轮,CSV格式 |
编码格式为UTF-8。 每一行代表一个问答对,第一列对应context 第二列对应target,确保每个问题和答案的数据都以逗号分隔,每行的数据完整且格式正确 |
有监督单轮,带人设,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,system不能为空,形式为{"system":"system内容","context":"context内容","target":"target内容"} system、content、target分别表示人设、问题、答案 #示例 {"system":"你是一个知识问答助手","context":"诗仙指的是哪位诗人?","target": "唐代诗人李白为诗仙。"} |
有监督多轮,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,为数组格式,至少一组问答对,形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}] content、target分别表示问题、答案 #示例 [{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}] |
有监督多轮,带人设,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,为数组格式,至少一组问答对,system不能为空,形式为[{"system":"system内容"},{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}] system、content、target分别表示人设、问题、答案 #示例 [{"system":"你是一个知识问答助手"},{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}] |