使用数据工程构建NLP大模型数据集
NLP大模型支持接入的数据集类型
盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答、偏好优化DPO等,同时新增了Reasoner模型,Reasoner模型是一种基于逻辑推理或知识推理的AI模型。不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。
| 基模型 | 训练场景 | 数据集类型 | 数据集内容 | 格式 | 文件格式 |
|---|---|---|---|---|---|
| NLP | 预训练 | 文本 | 预训练文本 | NA | jsonl |
| 微调(快思考模型) | 文本 | 单轮问答 | 盘古格式-非思维链 | jsonl、csv | |
| 文本 | 多轮问答 | 盘古格式-非思维链 | jsonl | ||
| 文本 | 单轮问答(人设) | 盘古格式-非思维链 | jsonl、csv | ||
| 文本 | 多轮问答(人设) | 盘古格式-非思维链 | jsonl | ||
| 微调(慢思考模型) | 文本 | 单轮问答 | 盘古格式-思维链 | jsonl、csv | |
| 文本 | 多轮问答 | 盘古格式-思维链 | jsonl | ||
| 文本 | 单轮问答(人设) | 盘古格式-思维链 | jsonl、csv | ||
| 文本 | 多轮问答(人设) | 盘古格式-思维链 | jsonl | ||
| 强化学习-RFT(快思考模型) | 文本 | 单轮问答 | 盘古格式-非思维链 | jsonl | |
| 强化学习-DPO(快思考模型) | 文本 | 偏好优化DPO | 盘古格式-非思维链 | jsonl | |
| 强化学习-GRPO(快思考模型) | 文本 | 单轮问答 | 盘古格式-非思维链 | jsonl | |
| 文本 | 单轮问答(人设) | 盘古格式-非思维链 | jsonl | ||
| 强化学习-GRPO(慢思考模型) | 文本 | 单轮问答 | 盘古格式-非思维链 | jsonl | |
| 文本 | 单轮问答(人设) | 盘古格式-非思维链 | jsonl |
训练NLP大模型所需数据量
使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2。
| 模型规格 | 训练类型 | 推荐数据量 | 最小数据量(数据条数) | 单场景推荐训练数据量 | 单条数据Token长度限制 |
|---|---|---|---|---|---|
| N1 | 微调 | - | 1000条/每场景 | ≥ 1万条/每场景 | 32K |
| N2 | 微调 | - | 1000条/每场景 | ≥ 1万条/每场景 | 32K |
| 强化学习GRPO | ≥4000条 | 500条 | - | 32K | |
| N4 | 微调 | - | 1000条/每场景 | ≥ 1万条/每场景 | 4K版本:4096 32K版本:32768 |
| 预训练 | 4GB(等价10亿Tokens) | - | - | 4K版本:4096 32K版本:32768 | |
| RFT强化学习 | 100 ~ 1万条 | 100条 | - | ||
| DPO强化学习 | 5万 ~ 15万条 | 1000条 | - |
评测NLP大模型所需数据量
要求所有文本大小最大不超过100MB,目录下文件数量最多不超过100个。数据条数范围为:3-1000条。
构建NLP大模型数据集流程
在ModelArts Studio大模型开发平台中,使用数据工程构建盘古NLP大模型数据集流程见表3。
| 流程 | 子流程 | 说明 | 操作指导 |
|---|---|---|---|
| 导入数据至盘古平台 | 创建导入任务 | 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。慢思考模型的数据相比快思考模型的数据新增了思考部分的内容。例如对于单轮对话微调数据:快思考一条数据样例的格式:{"context":["XX"], "target":"答案"},慢思考模型的数据样例:{"context":["XX"], "target":"<think>xx</think> 答案"} | |
| 加工文本类数据集 | 加工文本类数据集 | 通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提高数据质量。 | |
| 合成文本类数据集 | 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 | ||
| 标注文本类数据集 | 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 | ||
| 配比文本类数据集 | 数据配比是将多个数据集按特定比例组合的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 | ||
| 发布文本类数据集 | 评估文本类数据集 | 平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 | |
| 发布文本类数据集 | 发布流程是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为标准格式、盘古格式。为适配不同盘古模型的数据规范,文本类型-单轮问答、单轮问答(带人设)、多轮问答、多轮问答(带人设)、DPO、DPO(带人设)发布时需选择盘古格式-非思维链或盘古格式-思维链进行发布。
|