更新时间:2025-08-14 GMT+08:00
分享

加工数据集

数据加工介绍

ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据加工、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。

  • 数据加工

    通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。此外,用户还可以创建自定义算子,针对特定业务场景和模型需求,灵活地进行数据加工,从而进一步优化数据处理流程,提高模型的准确性和鲁棒性。

  • 数据合成

    利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。

  • 数据标注

    为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

  • 数据配比

    数据配比是将多个数据集按特定比例组合为一个加工数据集的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。

通过这些数据加工操作,平台能够有效清理噪声数据、标准化数据格式,并优化数据集的整体质量。数据加工不仅仅是简单的数据处理,它还会根据数据类型和业务场景进行有针对性的优化,从而为模型训练提供高质量的输入,提升模型的表现。

操作步骤

在使用ModelArts Studio平台进行数据加工时:

  1. 登录ModelArts Studio大模型开发平台,进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”,单击界面右上角“创建加工任务”。
  3. 在选择需要加工的数据集后,单击界面右下角“下一步”,即可进入“加工算子选择界面”。
  4. 选择需要使用的加工算子进行数据加工,如:使用“中文简繁互转”算子来统一简繁类型;使用“个人数据脱敏”算子来对网址、电话号码等敏感数据进行加密;使用“问答对去重”算子来去除数据集中相似度较高的文本。ModelArts Studio平台支持的数据加工算子以及详细功能介绍请见文本类加工算子介绍。之后单击界面右下角“下一步”。
    1. 在左侧“添加算子”分页勾选所需算子。
    2. 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。

      如果算子参数涉及大模型选择,需要在ModelArtsStudio中购买模型并部署。

    3. 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工模板”进行使用。

      若选择使用加工模板,将删除当前已编排的加工步骤。

      图1 选择加工模板
图2 选择数据加工算子

如需自定义加工算子,可以在“加工任务”页面单击右上角“管理加工算子”进入管理加工算子页面,之后单击右上角“创建自定义算子”来进行创建。具体创建流程详见自定义数据集加工算子。创建成功的自定义算子可在“加工算子选择界面”进行选择调用。

  1. 加工步骤编排完成后,单击“下一步”进入“任务配置界面”
    • 资源配置

      单击展开资源配置,可以设置任务资源 。也支持自定义参数配置,单击“添加参数”,输入参数名称和参数值。

      图3 资源配置

      参数说明见表1

      表1 参数配置

      参数名称

      参数说明

      numExecutors

      Executor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数相当于增大了任务的并发度。在资源充足的情况下,可以相应增加Executor的个数,以提高运行效率。

      numExecutors * executorMemory最小值为4,最大值为16。

      executorCores

      每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。

      numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。

      executorMemory

      每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一个任务很大的时候,可能需要较多资源,因而内存也可以做相应的增加;当一个任务较小运行较快时,就可以增大并发度减少内存。

      executorCores和executorMemory的比例需要在1:2~1:4之间。

      driverCores

      驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通信。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

      driverMemory

      驱动程序进程使用的内存数量,默认值4。Driver负责任务的调度,和Executor之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增大。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

    • 自动生成加工数据集

      勾选,配置生成加工数据集的信息,如图4;单击右下角“确定”,平台将启动加工任务。加工任务运行成功后自动生成加工数据集。

      不勾选,单击右下角“确定”,平台将启动加工任务。加工任务运行成功后需要手动生成加工数据集。
      图4 自动生成加工数据集
    • 扩展信息(可选)
      可选择行业、语言信息,或自定义数据集属性。
      图5 扩展信息
  1. 单击页面右下角“启动加工”,回退至“加工任务”页面,在该页面可以查看数据集加工任务的状态,若状态为“数据集生成成功”,则数据加工成功。

相关文档