更新时间:2025-07-28 GMT+08:00

配比文本类数据集

数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。

如果单个数据集已满足您的需求,可跳过此章节至发布文本类数据集

创建文本类数据集配比任务

创建文本类数据集配比任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 配比任务”,单击界面右上角“创建配比任务”。
  3. 在“数据集模态”页签选择需要做数据配比的对应数据集模态,支持文本、图片、预测类数据集做数据配比任务,如图2 数据集模态所示。
    图2 数据集模态
  4. 在“选择数据集”页签选择需要配比的文本类数据集(至少选择两个),单击“下一步”。
  5. 在“数据配比”页面,支持两种配比方式,“按数据集”和“按标签”。
    • 按数据集:可以设置不同数据集的配比数量,如图3输入待配比数据集配比条数。
      图3 按“数据集”方式配比填写示例
    • 按标签:该场景适用于通过数据打标类加工算子进行加工的文本类数据集,具体标签名称与标签值可在完成加工文本类数据集操作后,进入数据集详情页面获取。

      填写示例如图4所示。

      图4 “按标签”配比方式填写示例
  6. 数据配比完成后,单击右下角“下一步”,进入资源配置,并选择是否勾选自动生成加工数据集。

    资源配置:

    单击展开资源配置,可以设置任务资源 。也支持自定义参数配置,单击添加参数,输入参数名称和参数值。

    表1 参数配置

    参数名称

    参数说明

    numExecutors

    Executor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数相当于增大了任务的并发度。在资源充足的情况下,可以相应增加Executor的个数,以提高运行效率。

    numExecutors * executorMemory最小值为4,最大值为16。

    executorCores

    每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。

    numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。

    executorMemory

    每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一个任务很大的时候,可能需要较多资源,因而内存也可以做相应的增加;当一个任务较小运行较快时,就可以增大并发度减少内存。

    executorCores和executorMemory的比例需要在1:2~1:4之间。

    driverCores

    驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通信。

    driverCores和driverMemory的比例需要在1:2~1:4之间。

    driverMemory

    驱动程序进程使用的内存数量,默认值4。Driver负责任务的调度,和Executor之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增大。

    driverCores和driverMemory的比例需要在1:2~1:4之间。

    图5 资源配置

    自动生成加工数据集:

    勾选,配置生成加工数据集的信息,如图 自动生成加工数据集;单击右下角“确定”,平台将启动配比任务。配比任务运行成功后自动生成加工数据集。

    不勾选,单击右下角“确定”,平台将启动配比任务。配比任务运行成功后手动生成加工数据集。

    图6 自动生成加工数据集

    扩展信息(可选):

    可选择行业、语言信息,或自定义数据集属性。

    图7 扩展信息
  7. 单击“确定”后,页面将返回至“配比任务”页面,配比任务运行成功后,状态将显示为“运行成功”。
  8. 单击操作列“生成”,将生成“发布数据集”。

    发布数据集可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。