更新时间:2025-01-14 GMT+08:00
分享

标注视频类数据集

创建视频类数据集标注任务

标注视频类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台

创建视频类数据集标注任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,单击页面右上角“创建标注任务”。
  3. 在“创建标注任务”页面选择需要标注的视频类数据集与标注项,单击“下一步”。

    如果选择“视频Caption”标注项,则可开启“AI预标注”功能。AI预标注将自动生成标注内容,不会覆盖原始数据集,供标注人员参考,以提高标注效率。

    如果选择“自定义”标注项,则可自定义添加标注内容及名称,包括单层级分类、多层级分类、文本描述。

    • 单层级分类:单层级分类是最简单的一种标注方式,通常指对视频内容进行单一的标签分类。如图1,在视频中标注场景主题类别。每个视频片段只对应一个分类标签,分类项不再进一步细分或包含更多的层次结构。
      图1 单层级分类示例-视频主题分类
    • 多层级分类:多层级分类允许对同一视频内容进行更复杂的分类,并通过层次结构展现。通常会先从一个大类别开始,然后逐渐向下细分,直到达到所需的标注粒度。如图2,首先标注视频中的“大类别”(如“动物”),然后根据该大类别进一步细分为多个子类。这种方式可以更精细地表示视频中涉及的不同对象或情境。
      图2 多层级分类示例-声音分类
    • 文本描述:如图3,文本描述允许标注者以文字的形式为视频片段提供更详细的说明或描述。该描述不仅可以包含视频中的内容信息,还可以包括视频中的场景、动作、事件或其他细节。这种方式不局限于预设的分类标签,能够灵活地记录视频中一些更复杂的内容。
      图3 文本描述示例-视频片段描述
  4. 单击“下一步”,参考表1配置标注分配与审核。
    表1 标注分配与审核配置

    参数类型

    参数名称

    参数说明

    标注分配

    启用多人标注

    • 关闭时,默认管理员单人标注。
    • 启用时,可以指定参与标注的人员及标注数量。

    标注要求

    选择标注项为“视频Caption”且开启AI预标注功能时,可设置以下两种方式的“标注要求”:
    • 选择“全部标注”:要求标注人员需要对全部的数据进行人工标注后才可提交标注结果。
    • 选择“可部分标注”:允许标注人员在确认AI预标注满足要求后,直接使用AI预标注功能完成数据集的标注并提交标注结果。

    标注审核

    是否审核

    • 否,标注后不进行审核操作。
    • 是,审核员会检查标注员的标注内容,若发现问题,审核员可注明原因并驳回标注数据,标注员需重新标注。

    启用多人审核

    • 关闭时,默认管理员单人审核
    • 启用时,可以指定参与审核的人员及审核数量。

    审核要求

    • 全部审核:要求审核员对全部数据,逐条进行人工审核,才能完成审核任务。
    • 可部分审核:审核员在审核一部分数据后,发现标注质量均很高,则可以一键提交剩余待审核数据,默认审核通过,即可完成审核任务。
  5. 单击“完成创建”,在“任务管理”页签可查看标注任务的创建状态。当状态为“已创建”时,表示该标注任务创建完成。
  6. 进入“标注作业”页签,单击当前标注任务的“标注”。

    如果需要将该标注任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。

  7. 进入标注页面后,逐一对数据进行标注。
    图4,以标注视频Caption数据为例,需要逐一标注视频的质量。
    图4 视频类数据集标注示例
  8. 一条数据标注完成后,单击“提交”可继续标注剩余数据。所有数据标注完成后,页面会出现标注任务成功的提示。

    如果在创建标注任务时设置了“AI预标注 > 可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。

在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。

加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。

审核标注后的视频类数据集

如果在创建视频类数据集标注任务时启用了标注审核功能,则在完成标注后可以在“标注审核”页面审核标注结果。

创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。

对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。

审核视频类数据集标注结果的步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,进入“标注审核”页签。
  3. 在“标注审核”页面,单击“审核”可进入审核页面审核数据。

    如果需要将该审核任务移交给其他人员,可以单击“移交”,并设置移交人员以及移交数量,单击“确定”。

  4. 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成。

    审核过程中可开启“标注前后对比”功能,查看当前数据标注前后的内容。

在完成数据标注审核后,需在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。

加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。

相关文档