更新时间:2024-10-24 GMT+08:00

创建ModelArts人工标注作业

由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的数据添加标签。您可以通过创建单人标注作业或团队标注作业对数据进行手工标注,或对任务启动智能标注添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新标注。

标注作业支持的数据类型

对于不同类型的数据集,用户可以选择不同的标注任务,当前ModelArts支持如下类型的标注任务。

  • 图片
    • 图像分类:识别一张图片中是否包含某种物体。
    • 物体检测:识别出图片中每个物体的位置及类别。
    • 图像分割:根据图片中的物体划分出不同区域。
  • 音频
    • 声音分类:对声音进行分类。
    • 语音内容:对语音内容进行标注。
    • 语音分割:对语音进行分段标注。
  • 文本
    • 文本分类:对文本的内容按照标签进行分类处理。
    • 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。
    • 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。
  • 视频

    视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。

前提条件

在进行数据标注前,需要创建相应类型的数据集。具体步骤参考创建数据集

操作步骤

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。
  2. 在数据标注管理页面,单击页面右上角“创建标注作业”,进入“创建标注作业”页面,根据需求创建不同类型的标注作业。
    1. 填写标注作业基本信息,标注作业的“名称”“描述”
    2. 根据您的需求,选择“标注场景”“标注类型”
      图1 选择标注场景和标注类型
    3. 针对不同类型的标注作业,需填写参数不同,请参考如下类型标注作业对应的参数介绍。
    4. 参数填写无误后,单击页面右下角“创建”

      标注作业创建完成后,系统自动跳转至数据标注管理页面,针对创建好的标注作业,您可以执行智能标注、发布、修改和删除等操作。

图片(图像分类、物体检测、图像分割)

图2 图像分类和物体检测类型的参数
表1 图片类型标注作业的详细参数

参数名称

说明

数据集名称

选择支持当前标注类型的数据集。

添加标签集

  • 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:“物体检测”和“图像分割”类型标注作业需设置此参数。在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。
  • 设置标签属性:针对“物体检测”类型标注作业,在设置完标签颜色后,可在右侧单击加号,增加对应的标签属性。标签属性用于区分同一标签物体的不同属性。例如,黄色小猫、黑色小猫。标签为cat,颜色为不同的标签属性。

启用团队标注

选择是否启用团队标注。图像分割暂不支持团队标注,当选择图像分割类型时,界面不显示此参数。

启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务

在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见创建和管理团队

启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

音频(声音分类、语音内容、语音分割)

图3 声音分类、语音内容、语音分割类型的参数
表2 音频类型标注作业的详细参数

参数名称

说明

数据集名称

选择支持当前标注类型的数据集。

添加标签集(声音分类)

“声音分类”类型的标注作业可以添加标签集。

  • 设置标签名称:在标签名称文本框中,长度为1~1024字符。
  • 添加标签:单击“添加标签”可增加多个标签。

标签管理(语音分割)

“语音分割”类型的标注作业,支持标签管理。

  • 单标签
    单标签适用于一段音频标注只有一种类别的音频,通常标注一个标签。
    • 设置标签名称:在“标签名”列输入标签名称。长度为1~1024字符。
    • 设置标签颜色:在“标签颜色”列设置标签颜色。可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。
  • 多标签
    多标签适用于多维度标注,例如在一段音频标注噪音与人说话的声音两种类别,其中说话的声音还可以标注为不同人的声音。单击“新建标签类别”可添加多个标签类别,一个标签类别可以包含多个标签。“标签类别”“标签名”只能是中文、字母、数字、英文句号、下划线或中划线组成的合法字符串。长度为1~256字符。
    • 设置标签类别:在“标签类别”输入标签类别的名称。
    • 设置标签名称:在“标签名”输入标签名称。
    • 添加标签:单击“添加标签”可增加多个标签。

启用语音内容标注(语音分割)

仅“语音分割”类型数据集支持设置,默认关闭。如果启用此功能,支持针对语音内容进行标注。

启用团队标注(语音分割)

仅“语音分割”类型支持团队标注,因此选择创建语音分割类型时,支持设置是否启用团队标注。

启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务

在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见创建和管理团队

启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

文本(文本分类、命名实体、文本三元组)

图4 文本分类、命名实体、文本三元组类型的参数
表3 文本类型标注作业的详细参数

参数名称

说明

数据集名称

选择支持当前标注类型的数据集。

添加标签集(文本分类、命名实体)

  • 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。

添加标签集(文本三元组)

针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。

  • 实体标签:需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。
  • 关系标签:关系标签为两个实体之间的关系。需设置起始实体和终止实体,您需要先添加至少2个实体标签后,再添加关系标签。

启用团队标注

选择是否启用团队标注。

启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务

在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见创建和管理团队

启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

视频

图5 视频类型的参数
表4 视频类型标注作业的详细参数

参数名称

说明

数据集名称

选择支持当前标注类型的数据集。

添加标签集

  • 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。