更新时间:2025-01-05 GMT+08:00
分享

配比文本类数据集

数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。

如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集

创建文本类数据集配比任务

创建文本类数据集配比任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据发布 > 数据配比”,单击界面右上角“创建配比任务”。
  3. 在“数据集选择”页签选择需要配比的文本类数据集(至少选择两个),单击“下一步”。
  4. 在“数据配比”页面,支持两种配比方式,“按数据集”和“按标签”。
    • 按数据集:可以设置不同数据集的配比数量,单击“确定”。
    • 按标签:该场景适用于通过数据打标类清洗算子进行加工的文本类数据集,具体标签名称与标签值可在完成清洗文本类数据集操作后,进入数据集详情页面获取。

      填写示例如图1所示。

      图1 “按标签”配比方式填写示例
  5. 页面将返回至“数据配比”页面,配比任务运行成功后,状态将显示为“运行成功”。
  6. 单击操作列“生成”,将生成“发布数据集”。

    发布数据集可在“数据工程 > 数据发布 > 发布数据集”中查看。

通过数据配比功能生成的“发布数据集”,其格式为“默认格式”。

相关文档