更新时间:2024-09-03 GMT+08:00
分享

模型训练所需数据量与数据格式要求

盘古大模型套件平台支持NLP大模型、多模态大模型的训练。不同模型训练所需的数据量和数据格式有所差异,请基于数据要求提前准备训练数据。

数据量要求

  • 自监督训练

    在单次训练任务中,一个自监督训练数据集内,上传的数据文件数量不得超过1000个,单文件大小不得超过1GB,所有文件的总大小不得超过200GB

    表1 自监督训练数据大小说明

    模型规格

    最小数据量(数据条数)

    推荐数据量

    单条数据token长度限制

    N4-4K版本

    1万条/每场景

    4GB(等价10亿Tokens)

    4096

  • 有监督训练

    在单次训练任务中,一个有监督数据集内,上传的数据文件数量不得超过100个,单文件大小不得超过1GB,所有文件的总大小不得超过1GB

    表2 有监督微调数据大小说明

    模型规格

    最小数据量(数据条数)

    单场景推荐训练数据量

    单条数据token长度限制

    训练集:验证集推荐比例

    N1-4K版本

    1000条/每场景

    ≥ 1万条/每场景

    4096

    10:1

    N1-32K版本

    1000条/每场景

    ≥ 1万条/每场景

    32768

    10:1

    N2-4K版本

    1000条/每场景

    ≥ 1万条/每场景

    4096

    10:1

    N2-32K版本

    1000条/每场景

    ≥ 1万条/每场景

    32768

    10:1

    N4-4K版本

    1000条/每场景

    ≥ 1万条/每场景

    4096

    10:1

    训练数据需要依据不同任务场景进行构造。例如,当训练阅读理解任务时,需要选择一些包含大量阅读材料的数据进行训练。当训练广告文案生成任务时,训练数据则需要包含一定量的广告文案数据。

  • 模型评估

    一个评估数据集内,上传的数据文件数量不得超过100个,单文件大小不得超过1GB,所有文件的总大小不得超过1GB

  • 多模态训练
    • 预训练数据

      tar包存储原始的图片,单个tar包的大小不得超过500MB,图片描述JSONL文件只需一份。

    • 指令微调数据

      tar包存储原始的图片,单个tar包的大小不得超过500MB,图片描述JSONL文件只需一份。

    • 图片数据仅支持jpg格式,图片大小不得低于5kb,图片最小边不得低于200px,长边:短边比例不得大于3:1
      表3 多模态数据大小说明

      训练类型

      最小数据量(图文对数据)

      推荐数据量(图文对数据)

      预训练

      1000万对

      5000万对起

      指令微调

      20~30万对

      100万对

数据格式要求

盘古大模型服务支持如下数据,格式要求请参见表4

表4 盘古数据文件格式要求

数据类型

支持格式

数据样例

是否支持拆分(划分训练集/验证集)

自监督训练数据

TXT、JSONL、PDF、WORD、HTML

编码格式为UTF-8。

#TXT格式,一行对应1条JSON
#PDF、WORD、HTML只需上传对应的文档,文档内容为文本
#JSONL
{"text":"《活着》,是中国著名作家余华所写的一部长篇小说。《活着》讲述了一个普通农民徐福贵的人生历程。他的人生充满了苦难和挫折,但他在面对这些困难时,始终保持着坚强和乐观的态度。"}

有监督微调数据

单轮:CSV、JSONL

多轮:JSONL

编码格式为UTF-8。

#单轮问答示例
#CSV 第一列对应context 第二列对应target
#content、target分别表示问题、答案
#JSONL
{"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"}

详细有监督数据格式性参见表5

评测数据

CSV、JSONL

同有监督单轮不带system prompt数据。

表5 有监督数据格式

数据类型

格式说明

有监督单轮,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,形式为{"context":"context内容","target":"target内容"}
content、target分别表示问题、答案
#示例
{"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"}

有监督单轮,CSV格式

编码格式为UTF-8。

每一行代表一个问答对,第一列对应context 第二列对应target,确保每个问题和答案的数据都以逗号分隔,每行的数据完整且格式正确

有监督单轮,带人设,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,system不能为空,形式为{"system":"system内容","context":"context内容","target":"target内容"}
system、content、target分别表示人设、问题、答案
#示例
{"system":"你是一个知识问答助手","context":"诗仙指的是哪位诗人?","target": "唐代诗人李白为诗仙。"}

有监督多轮,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,为数组格式,至少一组问答对,形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]
content、target分别表示问题、答案
#示例
[{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}]

有监督多轮,带人设,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,为数组格式,至少一组问答对,system不能为空,形式为[{"system":"system内容"},{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]
system、content、target分别表示人设、问题、答案
#示例
[{"system":"你是一个知识问答助手"},{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}]

相关文档