文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古NLP大模型/ 使用数据工程构建NLP大模型数据集
更新时间:2025-01-14 GMT+08:00
分享

使用数据工程构建NLP大模型数据集

NLP大模型支持接入的数据集类型

盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求

表1 训练NLP大模型数据集类型要求

基模型

训练场景

数据集类型

数据集内容

文件格式

NLP

预训练

文本

预训练文本

jsonl

微调

文本

单轮问答

jsonl、csv

文本

多轮问答

jsonl

文本

单轮问答(人设)

jsonl、csv

文本

多轮问答(人设)

jsonl

训练NLP大模型所需数据量

使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2

表2 构建NLP大模型所需数据量

模型规格

训练类型

推荐数据量

最小数据量(数据条数)

单场景推荐训练数据量

单条数据Token长度限制

N1

微调

-

1000条/每场景

≥ 1万条/每场景

32K

N2

微调

-

1000条/每场景

≥ 1万条/每场景

32K

N4

微调

-

1000条/每场景

≥ 1万条/每场景

4K版本:4096

32K版本:32768

评测NLP大模型所需数据量

要求所有文本大小最大不超过100MB,目录下文件数量最多不超过100个。数据条数范围为:3-1000条。

构建NLP大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程构建盘古NLP大模型数据集流程见表3

表3 盘古NLP大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

导入数据至盘古平台

加工文本类数据集

清洗文本类数据集

通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。

清洗文本类数据集

合成文本类数据集

利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。

合成文本类数据集

标注文本类数据集

为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

标注文本类数据集

发布文本类数据集

评估文本类数据集

平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。

评估文本类数据集

配比文本类数据集

数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。

配比文本类数据集

流通文本类数据集

数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

平台支持发布的数据集格式为默认格式、盘古格式

  • 默认格式:平台默认的格式。
  • 盘古格式:训练盘古大模型时,需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。

流通文本类数据集

相关文档