获取源数据
常用数据集类型
微调数据集为问答数据,分成通用数据集(语言理解、编程能力、数学能力、逻辑推理等)和行业数据集(如法律、医疗、金融等)。
数据获取方法
- 开源数据集:
- 通用数据集
- 中文 SmolTalk 数据集
smoltalk-chinese 是一个参照 SmolTalk 数据集构建的中文微调数据集。它旨在为训练大型语言模型(LLMs)提供高质量的合成数据支持。该数据集完全由合成数据组成,包含超过 70 万条记录。它专门设计用于提高中文 LLMs 在各种任务中的性能,增强其多样性和适应性。
下载链接:
https://modelscope.cn/datasets/opencsg/smoltalk-chinese/summary
- OpenThoughts3-1.2M
OpenThoughts3-1.2M是一个严格实验流程的结果,该流程对问题来源和选择以及答案生成的设计选择进行了消融研究。 最终的数据集包括 850,000 个数学问题、250,000 个代码问题和 100,000 个科学问题。
下载链接:
https://modelscope.cn/datasets/open-thoughts/OpenThoughts3-1.2M
- SYNTHETIC-1
SYNTHETIC-1是一个从Deepseek-R1获得的推理数据集,使用众包计算生成,并使用不同的验证器(如LLM判断器或符号数学验证器)进行注释。
下载链接:
https://modelscope.cn/datasets/PrimeIntellect/SYNTHETIC-1
- 中文 SmolTalk 数据集
- 行业数据集
- Fino1_Reasoning_Path_FinQA
Fino1 是一个基于 FinQA 的金融推理数据集,通过 GPT-4o 生成的推理路径 来增强结构化的金融问题回答。
下载链接:
https://modelscope.cn/datasets/TheFinAI/Fino1_Reasoning_Path_FinQA
- OpenFinData
OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景,旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。
下载链接:
https://modelscope.cn/datasets/Shanghai_AI_Laboratory/open-compass-OpenFinData/summary
- Fino1_Reasoning_Path_FinQA
- 通用数据集
- selfInstruct: 根据种子指令通过语言模型进行多样性数据泛化或者相似数据泛化
- EvolveInstruct: 对已有种子指令进行泛化,构造更复杂指令
- SelfQA: 根据无监督文本自动构造问答对
- 网页问答对挖掘: 从问答网页中挖掘用户问题

行业增量训练中, 最常见的需求是补充行业知识, 或者完成特定的任务。 行业知识的学习可以通过对专业书籍进行SelfQA 或者从相关行业论坛中挖掘用户真实问题。 对于行业特定任务, 可以使用SelfInstruct对种子指令进行性泛化。