文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发Deepseek大模型/ 使用数据工程构建Deepseek大模型数据集
更新时间:2025-07-28 GMT+08:00

使用数据工程构建Deepseek大模型数据集

构建Deepseek大模型数据集流程

在ModelArts Studio平台中,使用数据工程构建三方大模型数据集流程见表1

表1 三方大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务或本地的数据导入至平台统一管理,用于后续加工或发布操作。

说明:

执行导入操作时,数据集类型需要选择“单轮问答数据”。

导入数据至盘古平台

加工其他类数据集

加工其他类数据集

通过自定义加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。

加工其他类数据集

发布其他类数据集

发布其他类数据集

数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

发布其他类数据集

DeepSeek数据集要求

表2 DeekSeek模型数据集格式

模型类型

训练类型

数据量

数据集格式

数据说明

DeepSeek-R1-32K

DeepSeek-V3-32k

预训练

大于15B tokens

jsonl

jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下:
{"text":"盘古大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}

DeepSeek-V3-32k

微调训练(单轮问答)

1万~100万条数据

jsonl

jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下:
{"context":"你好,请介绍自己","target":"我是盘古大模型"}

DeepSeek-R1-32K

微调训练(单轮问答)

1万~100万条数据

jsonl

jsonl格式:数据由问答对构成,context、target分别表示问题、答案,target中除了模型回答外,需要添加<think>\n思考过程\n</think>,表示模型的思考过程信息。

{"context":"问题","target":"<think>\n思考过程\n</think>\n\n模型回答"}

示例:

{"context":"2+2等于多少?","target":"<think>\n根据基本算术定义,2与2相加即合并两个数值;\n通过实物计数(如2个苹果加2个苹果)或数轴移动(0→2→4)验证;\n符合自然数公理体系(如2的后继为3,再后继为4)。\n</think>\n\n**答案:** 2+2=4"}