更新时间:2025-01-05 GMT+08:00
分享

标注文本类数据集

创建文本类数据集标注任务

标注文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台

创建文本类数据集标注任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,单击页面右上角“创建标注任务”。
  3. 在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。

    选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。

  4. 单击“下一步”,可查看效果预览。
  5. 单击“下一步”,参考表1配置标注分配与审核。
    表1 标注分配与审核配置

    参数类型

    参数名称

    参数说明

    标注分配

    启用多人标注

    • 关闭时,默认管理员单人标注。
    • 启用时,可以指定参与标注的人员及标注数量。

    标注审核

    是否审核

    • 否,标注后不进行审核操作。
    • 是,审核员会检查标注员的标注内容,若发现问题,审核员可注明原因并驳回标注数据,标注员需重新标注。

    启用多人审核

    • 关闭时,默认管理员单人审核
    • 启用时,可以指定参与审核的人员及审核数量。

    审核要求

    • 全部审核:要求审核员对全部数据,逐条进行人工审核,才能完成审核任务。
    • 可部分审核:审核员在审核一部分数据后,发现标注质量均很高,则可以一键提交剩余待审核数据,默认审核通过,即可完成审核任务。
  6. 单击“完成创建”,在“任务管理”页签可查看标注任务的创建状态。当状态为“已创建”时,表示该标注任务创建完成。
  7. 进入“标注作业”页签,单击当前标注任务的“标注”。

    如果需要将该标注任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。

  8. 进入标注页面后,逐一对数据进行标注。
    图1,以标注单轮问答数据为例,需要逐一确认问题(Q)及答案(A)是否正确,如果问题或答案不正确,可以对其进行二次编辑。
    图1 文本类数据集标注示例
  9. 一条数据标注完成后,单击“提交”可继续标注剩余数据。所有数据标注完成后,页面会出现标注任务成功的提示。

在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。

加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。

审核标注后的文本类数据集

如果在创建文本类数据集标注任务时启用了标注审核功能,则在完成标注后可以在“标注审核”页面审核标注结果。

创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。

对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。

审核文本类数据集标注结果的步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,进入“标注审核”页签。
  3. 在“标注审核”页面,单击“审核”可进入审核页面审核数据。

    如果需要将该审核任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。

  4. 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成。

    审核过程中可开启“标注前后对比”功能,查看当前数据标注前后的内容。

在完成数据标注审核后,需在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。

加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。

相关文档