更新时间:2025-08-14 GMT+08:00
分享

配比并发布数据集

数据配比介绍

不同数据源与大语言模型某些特定能力的学习具有紧密的联系,根据来源不同,微调数据主要分为两种类型:

  • 通用问答数据和行业问答数据。通用问答数据涵盖了数学、代码和逻辑推理等,主要是为了保留模型的通用能力。
  • 行业指令数据主要为了提升模型解决下游任务的能力。以金融L1的数据配比为例,主要包括25%通用数学数据,20.5%通用代码数据,21.5%通用逻辑推理数据,12.5%通用非逻辑推理数据,20.5%行业数据。

在实际训练的过程中,通用问答数据和行业问答数据的比例非常重要,如果行业数据的比例过高,可能会丢过多的通用能力,反之可能无法很好地学习行业知识。通常来说,行业指令数据和通用指令数据的比例在控制在1:3左右,如果行业数据的质量较高,可以适当增加行业数据的混合比例。如果想要尽可能多地保留通用能力,则应该混入更多的高质量通用数据。

针对不同的行业场景,也应该考虑更加合适的配比方案:

  • 医疗场景:重点是患者问诊、病例分析、药物推荐等,通常需要精准的领域数据。配比方案应优先考虑医学领域数据,以及各个医院的真实数据,确保模型能处理专业性强的文本和更加实际的案例。
  • 金融场景:以财经新闻、股票市场分析报告、金融法规等为主。配比方案应关注财经新闻数据和金融报告等内容。该场景需要根据实际数据质量进行考虑,如果数据中包含有大量的财务报表等知识密度较低的数据,则可以适当降低该数据的比例。
  • 法律场景:聚焦法律条文、判例库、裁判文书、合同文书等,数据的专业性要求较高,但是数据中可能包含很多的人名地名,需要针对性进行数据加工。配比方案应特别注重法律领域数据,并避免过多的通用数据。法律文献的数据质量通常较为不错,可适当提高行业数据的比例。
  • 客服场景:包括客户对话记录、FAQ数据、客服手册等。配比方案应重点考虑用户交互和问题解答相关数据。客户对话的数据质量通常没有那么高,可适当降低行业数据的比例。

数据配比与发布操作步骤

在ModelArts Studio平台上使用数据集配比功能时:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 配比任务”,单击界面右上角“创建配比任务”。
  3. 在“数据集模态”页签选择需要做数据配比的对应数据集模态,支持文本、图片、视频、预测类数据集做数据配比任务,如图1所示。
    图1 数据集模态

  4. 在“选择数据集”页签选择需要配比的文本类数据集(至少选择两个),单击“下一步”。
  5. 在“数据配比”页面,支持两种配比方式,“按数据集”和“按标签”。
  6. 数据配比完成后,单击右下角“下一步”,进入资源配置,并选择是否勾选自动生成加工数据集。

    资源配置:

    单击展开资源配置,可以设置任务资源 。也支持自定义参数配置,单击添加参数,输入参数名称和参数值。
    表1 参数配置

    参数名称

    参数说明

    numExecutors

    Executor的数量,默认值2。

    numExecutors * executorMemory最小值为4,最大值为16。

    executorCores

    每个Executor进程使用的CPU内核数量,默认值2。

    numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。

    executorMemory

    每个Executor进程使用的内存数量,默认值4。

    executorCores和executorMemory的比例需要在1:2~1:4之间。

    driverCores

    驱动程序进程使用的CPU内核数量,默认值2。

    driverCores和driverMemory的比例需要在1:2~1:4之间。

    driverMemory

    驱动程序进程使用的内存数量,默认值4。

    driverCores和driverMemory的比例需要在1:2~1:4之间。

    图4 资源配置

    自动生成加工数据集:

    勾选,配置生成加工数据集的信息,如图 自动生成加工数据集;单击右下角“确定”,平台将启动配比任务。配比任务运行成功后自动生成加工数据集。

    不勾选,单击右下角“确定”,平台将启动配比任务。配比任务运行成功后手动生成加工数据集。

    图5 自动生成加工数据集

    扩展信息(可选):

    可选择行业、语言信息,或自定义数据集属性。

    图6 扩展信息
  7. 单击“确定”后,页面将返回至“配比任务”页面,配比任务运行成功后,状态将显示为“运行成功”。
  8. 单击操作列“生成”,将生成“发布数据集”。

    发布数据集可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。

相关文档