更新时间:2025-12-30 GMT+08:00
使用数据工程构建Deepseek大模型数据集
构建Deepseek大模型数据集流程
在ModelArts Studio平台中,使用数据工程构建三方大模型数据集流程见表1。
DeepSeek数据集要求
模型类型 | 训练类型 | 数据量 | 数据集格式 | 数据说明 |
|---|---|---|---|---|
DeepSeek-R1-32K DeepSeek-V3-32k | 预训练 | 大于15B tokens | jsonl | jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} |
DeepSeek-V3-32k | 微调训练(单轮问答) | 1万~100万条数据 | jsonl | jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下: {"context":"你好,请介绍自己","target":"我是盘古大模型"} |
DeepSeek-R1-32K | 微调训练(单轮问答) | 1万~100万条数据 | jsonl | jsonl格式:数据由问答对构成,context、target分别表示问题、答案,target中除了模型回答外,需要添加<think>\n思考过程\n</think>,表示模型的思考过程信息。 {"context":"问题","target":"<think>\n思考过程\n</think>\n\n模型回答"} 示例: {"context":"2+2等于多少?","target":"<think>\n根据基本算术定义,2与2相加即合并两个数值;\n通过实物计数(如2个苹果加2个苹果)或数轴移动(0→2→4)验证;\n符合自然数公理体系(如2的后继为3,再后继为4)。\n</think>\n\n**答案:** 2+2=4"} |
父主题:开发Deepseek大模型

