配比文本类数据集

数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程，确保数据的多样性、平衡性和代表性。

如果单个数据集已满足您的需求，可跳过此章节至发布文本类数据集。

创建文本类数据集配比任务

创建文本类数据集配比任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“数据工程 > 数据加工 > 配比任务”，单击界面右上角“创建配比任务”。
在“数据集模态”页签选择需要做数据配比的对应数据集模态，支持文本、图片、视频、多模态、预测类数据集做数据配比任务，如图2 数据集模态所示。
图2 数据集模态
在“选择数据集”页签选择需要配比的文本类数据集（至少选择两个），单击“下一步”。
注意：参与配比的数据集大小总和超过20G需要挂载磁盘且不能超过500G。
在“数据配比”页面，支持两种配比方式，“按数据集”和“按标签”。
- 按数据集：可以设置不同数据集的配比数量，如图3输入待配比数据集配比条数。
  图3 按“数据集”方式配比填写示例
- 按标签：该场景适用于通过数据打标类加工算子进行加工的文本类数据集，具体标签名称与标签值可在完成加工文本类数据集操作后，进入数据集详情页面获取。
  填写示例如图4所示。
  
  图4 “按标签”配比方式填写示例

数据配比完成后，单击右下角“下一步”，进入资源配置，并选择是否勾选自动生成加工数据集。

资源配置：

单击点击放大展开资源配置，可以设置任务资源。也支持自定义参数配置，单击添加参数，输入参数名称和参数值。

表1 参数配置
参数名称	参数说明
numExecutors	Executor的数量，默认值2。Executor（执行器）是运行在工作节点上的进程，它负责执行具体的task任务，并将计算结果返回给Driver（驱动程序）。每个Executor每个核同时能跑一个task任务，所以增加了Executor的个数相当于增大了任务的并发度。在资源充足的情况下，可以相应增加Executor的个数，以提高运行效率。 numExecutors * executorMemory最小值为4，最大值为16。
executorCores	每个Executor进程使用的CPU内核数量，默认值2。每个Executor多个核同时能跑多个task任务，相当于增大了任务的并发度。但是由于所有核共用Executor的内存，所以要在内存和核数之间做好平衡。 numExecutors * executorMemory最小值为4，最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。
executorMemory	每个Executor进程使用的内存数量，默认值4。Executor的内存主要用于任务执行、通信等。当一个任务很大的时候，可能需要较多资源，因而内存也可以做相应的增加；当一个任务较小运行较快时，就可以增大并发度减少内存。 executorCores和executorMemory的比例需要在1:2~1:4之间。
driverCores	驱动程序进程使用的CPU内核数量，默认值2。Driver负责任务的调度，和Executor之间的消息通信。 driverCores和driverMemory的比例需要在1:2~1:4之间。
driverMemory	驱动程序进程使用的内存数量，默认值4。Driver负责任务的调度，和Executor之间的消息通信。当任务数变多，任务平行度增大时，Driver内存都需要相应增大。 driverCores和driverMemory的比例需要在1:2~1:4之间。