使用数据工程构建NLP大模型数据集

NLP大模型支持接入的数据集类型

盘古NLP大模型仅支持接入文本类数据集，数据集文件内容包括：预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答、偏好优化DPO等，同时新增了Reasoner模型，Reasoner模型是一种基于逻辑推理或知识推理的AI模型。不同训练方式所需要使用的数据见表1，该数据集格式要求请参见文本类数据集格式要求。

表1 训练NLP大模型数据集类型要求
基模型	训练场景	数据集类型	数据集内容	格式	文件格式
NLP	预训练	文本	预训练文本	NA	jsonl
	微调（快思考模型）	文本	单轮问答	盘古格式-非思维链	jsonl、csv
		文本	多轮问答	盘古格式-非思维链	jsonl
		文本	单轮问答（人设）	盘古格式-非思维链	jsonl、csv
		文本	多轮问答（人设）	盘古格式-非思维链	jsonl
	微调（慢思考模型）	文本	单轮问答	盘古格式-思维链	jsonl、csv
		文本	多轮问答	盘古格式-思维链	jsonl
		文本	单轮问答（人设）	盘古格式-思维链	jsonl、csv
		文本	多轮问答（人设）	盘古格式-思维链	jsonl
	强化学习-RFT（快思考模型）	文本	单轮问答	盘古格式-非思维链	jsonl
	强化学习-DPO（快思考模型）	文本	偏好优化DPO	盘古格式-非思维链	jsonl

训练NLP大模型所需数据量

使用数据工程构建盘古NLP大模型数据集进行模型训练时，所需数据量见表2。

表2 构建NLP大模型所需数据量
模型规格	训练类型	推荐数据量	最小数据量（数据条数）	单场景推荐训练数据量	单条数据Token长度限制
N1	微调	-	1000条/每场景	≥ 1万条/每场景	32K
N2	微调	-	1000条/每场景	≥ 1万条/每场景	32K
N4	微调	-	1000条/每场景	≥ 1万条/每场景	4K版本：4096 32K版本：32768
	预训练	4GB(等价10亿Tokens)	-	-	4K版本：4096 32K版本：32768
	RFT强化学习	100 ~ 1万条	100条	-
	DPO强化学习	5万 ~ 15万条	1000条	-

评测NLP大模型所需数据量

要求所有文本大小最大不超过100MB，目录下文件数量最多不超过100个。数据条数范围为：3-1000条。

构建NLP大模型数据集流程

在ModelArts Studio大模型开发平台中，使用数据工程构建盘古NLP大模型数据集流程见表3。

表3 盘古NLP大模型数据集构建流程
流程	子流程	说明	操作指导
导入数据至盘古平台	创建导入任务	将存储在OBS服务中的数据导入至平台统一管理，用于后续加工或发布操作。慢思考模型的数据相比快思考模型的数据新增了思考部分的内容。例如对于单轮对话微调数据：快思考一条数据样例的格式：{"context":["XX"], "target":"答案"}，慢思考模型的数据样例：{"context":["XX"], "target":"<think>xx</think> 答案"}	导入数据至盘古平台
加工文本类数据集	加工文本类数据集	通过专用的加工算子对数据进行预处理，确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提升数据质量。	加工文本类数据集
	合成文本类数据集	利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。	合成文本类数据集
	标注文本类数据集	为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。	标注文本类数据集
	配比文本类数据集	数据配比是将多个数据集按特定比例组合的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。	配比文本类数据集
发布文本类数据集	评估文本类数据集	平台预置了多种数据类型的基础评估标准，包括NLP、视频和图片数据，用户可根据需求选择预置标准或自定义评估标准，从而精确优化数据质量，确保数据满足高标准，提升模型性能。	评估文本类数据集
发布文本类数据集	发布文本类数据集	发布流程是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。平台支持发布的数据集格式为标准格式、盘古格式。为适配不同盘古模型的数据规范，文本类型-单轮问答、单轮问答（带人设）、多轮问答、多轮问答（带人设）、DPO、DPO（带人设）发布时需选择盘古格式-非思维链或盘古格式-思维链进行发布。标准格式：平台默认的格式。该格式的数据集不可应用于盘古大模型的模型开发中，但可以发布为资产。盘古格式：训练盘古大模型时，需要发布为该格式，可用于盘古大模型的模型开发。当前仅文本类、图片类数据集支持发布为盘古格式。	发布文本类数据集