更新时间:2025-07-28 GMT+08:00
使用数据工程构建Deepseek大模型数据集
构建Deepseek大模型数据集流程
在ModelArts Studio平台中,使用数据工程构建三方大模型数据集流程见表1。
DeepSeek数据集要求
模型类型 |
训练类型 |
数据量 |
数据集格式 |
数据说明 |
---|---|---|---|---|
DeepSeek-R1-32K DeepSeek-V3-32k |
预训练 |
大于15B tokens |
jsonl |
jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下:
{"text":"盘古大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} |
DeepSeek-V3-32k |
微调训练(单轮问答) |
1万~100万条数据 |
jsonl |
jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下:
{"context":"你好,请介绍自己","target":"我是盘古大模型"} |
DeepSeek-R1-32K |
微调训练(单轮问答) |
1万~100万条数据 |
jsonl |
jsonl格式:数据由问答对构成,context、target分别表示问题、答案,target中除了模型回答外,需要添加<think>\n思考过程\n</think>,表示模型的思考过程信息。 {"context":"问题","target":"<think>\n思考过程\n</think>\n\n模型回答"} 示例: {"context":"2+2等于多少?","target":"<think>\n根据基本算术定义,2与2相加即合并两个数值;\n通过实物计数(如2个苹果加2个苹果)或数轴移动(0→2→4)验证;\n符合自然数公理体系(如2的后继为3,再后继为4)。\n</think>\n\n**答案:** 2+2=4"} |
父主题: 开发Deepseek大模型