更新时间:2024-04-30 GMT+08:00

自动分组

为了提升智能标注算法精度,可以均衡标注多个类别,有助于提升智能标注算法精度。ModelArts内置了分组算法,您可以针对您选中的数据,执行自动分组,提升您的数据标注效率。

自动分组可以理解为数据标注的预处理,先使用聚类算法对未标注图片进行聚类,再根据聚类结果进行处理,可以分组打标或者清洗图片。

例如,用户通过搜索引擎搜索XX,将相关图片下载并上传到数据集,然后再使用自动分组,可以将XX图片分类,比如论文、宣传海报、确认为XX的图片、其他。用户可以根据分组结果,快速剔除掉不想要的,或者将某一类直接全选后添加标签。

目前只有“图像分类”、“物体检测”和“图像分割”类型的数据集支持自动分组功能。

启动自动分组任务

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据标注”,进入“数据标注”管理页面。
  2. 在标注作业列表中,选择“物体检测”或“图像分类”类型的标注作业,单击标注作业名称进入“标注作业详情页”
  3. 在数据集详情页的“全部”页签中,单击“自动分组 > 启动任务”

    只能在“全部”页签下启动自动分组任务或查看任务历史。

  4. 在弹出的“自动分组”对话框中,填写参数信息,然后单击“确定”
    • “分组数”:填写2~200之间的整数,指将图片分为多少组。
    • “结果处理方式”“更新属性到当前样本中”,或者“保存到对象存储服务(OBS)”
    • “属性名称”:当选择“更新属性到当前样本中”时,需输入一个属性名称。
    • “结果存储目录”:当选择“保存到对象存储服务(OBS)”时,需指定一个用于存储的OBS路径。
    • “高级特征选项”:启用此功能后,可选择“清晰度”“亮度”“图像色彩”等维度为自动分组功能增加选项,使得分组着重于图片亮度、色彩和清晰度等特征进行分组。支持多选。
    图1 自动分组
  5. 启动任务提交成功后,界面右上角显示此任务的进度。等待任务执行完成后,您可以查看自动分组任务的历史记录,了解任务状态。

查看自动分组结果

在数据集详情页面的“全部”页签中,展开“筛选条件”,将“样本属性”设置为自动分组任务中的“属性名称”,并通过设置样本属性值,筛选出分组结果。

图2 查看自动分组结果

查看自动分组的历史任务

在数据集详情页面的“全部”页签中,单击“自动分组 > 任务历史”。在弹出的“任务历史”对话框中,展示当前数据集之前执行的自动分组任务的基本信息。
图3 自动分组任务历史