更新时间:2024-04-12 GMT+08:00

数据标注简介

数据管理模块在重构升级中,对未使用过数据管理的用户不可见。如果要使用数据管理相关功能,建议提交工单开通权限。

模型训练过程中需要大量已标注的数据,因此在模型训练之前需要进行数据标注作业。ModelArts为用户提供了标注数据的能力:

  • 人工标注:用户创建单人标注作业,对数据进行手工标注。
  • 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。
  • 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。

人工标注

对于不同类型的数据,用户可以选择不同的标注类型。当前ModelArts支持如下类型的标注作业:

  • 图片
    • 图像分类:识别一张图片中是否包含某种物体。
    • 物体检测:识别出图片中每个物体的位置及类别。
    • 图像分割:根据图片中的物体划分出不同区域。
  • 音频
    • 声音分类:对声音进行分类。
    • 语音内容:对语音内容进行标注。
    • 语音分割:对语音进行分段标注。
  • 文本
    • 文本分类:对文本的内容按照标签进行分类处理。
    • 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。
    • 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。
  • 视频

    视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。

智能标注

除了人工标注外,ModelArts还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。

目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。

团队标注

数据标注任务中,一般由一个人完成,但是针对数据集较大时,需要多人协助完成。ModelArts提供了团队标注功能,可以由多人组成一个标注团队,针对同一个数据集进行标注管理。

团队标注功能当前仅支持“图像分类”“物体检测”“文本分类”“命名实体”“文本三元组”“语音分割”类型的数据集。

不同类型数据集支持的功能列表

其中,不同类型的数据集,支持不同的功能,详细信息请参见表1

表1 不同类型数据集支持的功能

数据集类型

标注类型

人工标注

智能标注

团队标注

图片

图像分类

支持

支持

支持

物体检测

支持

支持

支持

图像分割

支持

-

-

音频

声音分类

支持

-

-

语音内容

支持

-

-

语音分割

支持

-

支持

文本

文本分类

支持

-

支持

命名实体

支持

-

支持

文本三元组

支持

-

支持

视频

视频标注

支持

-

-

自由格式

-

-

-

-

表格

-

-

-

-