获取源数据

常用数据集类型

微调数据集为问答数据，分成通用数据集（语言理解、编程能力、数学能力、逻辑推理等）和行业数据集（如法律、医疗、金融等）。

数据获取方法

开源数据集：
- 通用数据集
  - 中文SmolTalk数据集
    smoltalk-chinese是一个参照SmolTalk数据集构建的中文微调数据集。它旨在为训练大型语言模型（LLMs）提供高质量的合成数据支持。该数据集完全由合成数据组成，包含超过70万条记录。它专门设计用于提高中文LLMs在各种任务中的性能，增强其多样性和适应性。
    
    下载链接：
    
    https://modelscope.cn/datasets/opencsg/smoltalk-chinese/summary
  - OpenThoughts3-1.2M
    OpenThoughts3-1.2M是一个严格实验流程的结果，该流程对问题来源和选择以及答案生成的设计选择进行了消融研究。最终的数据集包括850,000个数学问题、250,000个代码问题和100,000个科学问题。
    
    下载链接：
    
    https://modelscope.cn/datasets/open-thoughts/OpenThoughts3-1.2M
  - SYNTHETIC-1
    SYNTHETIC-1是一个从Deepseek-R1获得的推理数据集，使用众包计算生成，并使用不同的验证器（如LLM判断器或符号数学验证器）进行注释。
    
    下载链接：
    
    https://modelscope.cn/datasets/PrimeIntellect/SYNTHETIC-1
- 行业数据集
  - Fino1_Reasoning_Path_FinQA
    Fino1是一个基于FinQA的金融推理数据集，通过GPT-4o生成的推理路径来增强结构化的金融问题回答。
    
    下载链接：
    
    https://modelscope.cn/datasets/TheFinAI/Fino1_Reasoning_Path_FinQA
  - OpenFinData
    OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求，是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景，旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。
    
    下载链接：
    
    https://modelscope.cn/datasets/Shanghai_AI_Laboratory/open-compass-OpenFinData/summary
selfInstruct: 根据种子指令通过语言模型进行多样性数据泛化或者相似数据泛化
EvolveInstruct: 对已有种子指令进行泛化，构造更复杂指令
SelfQA: 根据无监督文本自动构造问答对
网页问答对挖掘：从问答网页中挖掘用户问题