更新时间:2025-08-14 GMT+08:00
分享

获取源数据

常用数据来源

常用数据来源(以pdf、word为例):

  • 网页:互联网中存在大量的网页数据,数据规模较大,且覆盖范围较广,可以通过爬虫工具进行爬取。但是网页数据可能会包含干扰信息,且格式容易错乱,需要进行精细的加工和筛选工作。
  • 对话:有助于提升模型的对话能力。可以从书面形式的对话、聊天记录、论坛帖子、社交媒体评论等途径获取,整体获取难度更高,处理也比较困难。
  • 书籍书籍中的文本内容往往更为正式与详实,篇幅也相对较长。通常质量更高一点,有助于模型积累丰富的语言知识,还可以加强长距离语义关系的建模。可以从电子书网站进行获取。
  • 代码:与自然语言文本相比,代码主要以结构化的编程语言形式呈现。在代码数据上训练能够提升模型的结构化语义理解与逻辑推理能力。可以在Stack Exchange等编程问答社区或github和gitee等开源代码网站进行下载。
  • 学术论文:可以增强大语言模型对科学知识的理解,可到各大期刊和知网等权威网站进行下载。
  • 开源数据集
    • 通用数据集:通常可以提供大规模的互联网文本数据,适用于大多数NLP任务的预训练。
      • FineWeb Edu

        FineWeb Edu由HuggingFace团队推出,这是 FineWeb 的一个子集,通过Llama-3-70B-Instruct模型生成的合成注释进行分类和过滤,最终形成了一个1.3万亿token的教育类数据集,表现优于所有公开可访问的网络数据集。总大小约1.3T token,同时提供了10B/100B/350B token量级的数据集来快捷使用。

        发布时间:2024-06

        下载链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu/tree/main

      • OpenNewsArchive(开放新闻库)

        OpenNewsArchive由OpenDataLab、联合蜜度等多家联盟机构进行开源开发,其中包含了880万篇新闻文章的信息,涵盖了各种不同主题和来源的新闻内容。每篇新闻文章包括字段如标题、内容、发布日期、语言等,且数据集的内容经过数据加工去重等处理。总大小约11GB,主要为中文数据。

        发布时间:2024-05

        下载链接:https://openxlab.org.cn/datasets/OpenDataLab/OpenNewsArchive

      • ChineseFinewebEdu

        Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。

        发布时间:2024-08

        下载链接:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu/tree/main

      • CCI 3.0

        CCI 3.0 数据集是为了解决中文高质量安全数据集稀缺的问题而开放的。该数据集基于 CCI 数据集的基础上,扩展了数据源,采用了更严格的数据加工方法,并完成了 CCI 3.0 数据集的建设。数据集由高质量、可靠的互联网数据组成,经过严格的数据加工和去重处理,并针对内容质量和安全性进行了针对性的检测和过滤。CCI 3.0语料库的大小约为1000GB。

        发布时间:2024-09

        下载链接:https://huggingface.co/datasets/BAAI/CCI3-Data/tree/main

      • CCI 3.0-HQ

        基于CCI 3.0语料库,BAAI进一步进行加工,通过两阶段混合过滤管道开发,显著提升了数据质量,最终加工出500GB的高质量中文文本数据。为了评估有效性,在各种数据集上从头开始训练了一个0.5B参数模型,使用100B个token,在零样本设置下,在10个基准测试中取得了比CCI3.0、SkyPile和WanjuanV1更优越的性能。

        发布时间:2024-09

        下载链接:https://huggingface.co/datasets/BAAI/CCI3-HQ/tree/main

    • 专业领域数据集:
      • IndustryCorpus

        IndustryCorpus是由BAAI发布的多行业中文预训练数据集,旨在提升行业模型的性能。该数据集总量约为3.4TB,涵盖了包括医疗、教育、法律、金融等在内的18个行业的数据。IndustryCorpus的数据来自Wudao等多个大型数据集,并经过22个行业特定数据处理操作的精细加工,最终生成了1TB的高质量中文数据和2.4TB的英文数据。

        发布时间:2024-06

        下载链接:https://huggingface.co/datasets/BAAI/IndustryCorpus/tree/main/IndustryCorpus

      • IndustryCorpus2

        IndustryCorpus2在IndustryCorpus的基础上进一步升级和迭代,基于原有数据,引入了更多高质量的数据源,如pile、bigcode、open-web-math等数学和代码数据。为了更好地适应行业分类体系,结合国家统计局制定的国民经济行业分类体系(20个类别)和世界知识体系重新设计了行业类别,设置了31个行业类别,基本覆盖了当前主流行业。并采用了规则过滤+模型过滤方案,极大地提高了整体数据质量。最终生成了1TB的高质量中文数据和2.2TB的英文数据

        发布时间:2024-11

        下载链接:https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2/files

      • 一招金融数据集

        一招数据集是一个2TB高质量多模态的大模型训练数据集,不仅包含广泛的金融事件、市场动态,还涵盖各种金融产品和交易模式。使用同步开源的清洗工具、金融数据分类器和安全风险识别分类器对原始数据集进行处理后,构建了更干净、具备金融特色、符合社会主义核心价值观的中、英文数据集。最终数据集包含936GB中文文本数据集,100GB英文文本数据集和1TB的高质量多模态数据集。

        发布时间:2024-12

        下载链接:https://www.modelscope.cn/datasets/CMB_AILab/YiZhao-FinDataSet/files

      • Duxiaoman-DI/FinCorpus

        Duxiaoman-DI/FinCorpus数据集的构建,是在深入理解金融领域信息需求的基础上,通过收集整合了上市公司公告、金融新闻、金融文章以及金融试题等多种类型的中文金融资讯。覆盖了金融领域的多个方面,包括但不限于市场动态、公司运营、金融政策等。数据集总大小20GB左右。

        发布时间:2023-09

        下载链接:https://hf-mirror.com/datasets/Duxiaoman-DI/FinCorpus/tree/main

数据获取方法

  • 公开API:许多网站和平台提供API接口,通过API可以高效地获取结构化的文本数据。例如,Twitter API、News API、Reddit API等。
  • 爬虫技术:对于没有开放API的内容,可以使用爬虫技术进行抓取,但需要注意遵守相关法律和道德规范。
  • 购买/授权数据:一些公司或机构可能提供特定领域的数据,购买或授权这些数据也是一种有效的获取方式。

相关文档