使用自动分组智能标注作业
为了提升智能标注算法精度,可以均衡标注多个类别,有助于提升智能标注算法精度。ModelArts内置了分组算法,您可以针对您选中的数据,执行自动分组,提升您的数据标注效率。
自动分组可以理解为数据标注的预处理,先使用聚类算法对未标注图片进行聚类,再根据聚类结果进行处理,可以分组打标或者清洗图片。
例如,用户通过搜索引擎搜索XX,将相关图片下载并上传到数据集,然后再使用自动分组,可以将XX图片分类,比如论文、宣传海报、确认为XX的图片、其他。用户可以根据分组结果,快速剔除掉不想要的,或者将某一类直接全选后添加标签。
目前只有“图像分类”、“物体检测”和“图像分割”类型的数据集支持自动分组功能。
启动自动分组任务
- 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备>数据标注”,进入“数据标注”管理页面。
- 在标注作业列表中,选择“物体检测”或“图像分类”类型的标注作业,单击标注作业名称进入“标注作业详情页”。
- 在数据集详情页的“全部”页签中,单击“自动分组 > 启动任务”。
只能在“全部”页签下启动自动分组任务或查看任务历史。
- 在弹出的“自动分组”对话框中,填写参数信息,然后单击“确定”。
- “分组数”:填写2~200之间的整数,指将图片分为多少组。
- “结果处理方式”:“更新属性到当前样本中”,或者“保存到对象存储服务(OBS)”。
- “属性名称”:当选择“更新属性到当前样本中”时,需输入一个属性名称。
- “结果存储目录”:当选择“保存到对象存储服务(OBS)”时,需指定一个用于存储的OBS路径。
- “高级特征选项”:启用此功能后,可选择“清晰度”、“亮度”、“图像色彩”等维度为自动分组功能增加选项,使得分组着重于图片亮度、色彩和清晰度等特征进行分组。支持多选。
图1 自动分组
- 启动任务提交成功后,界面右上角显示此任务的进度。等待任务执行完成后,您可以查看自动分组任务的历史记录,了解任务状态。
查看自动分组结果
在数据集详情页面的“全部”页签中,展开“筛选条件”,将“样本属性”设置为自动分组任务中的“属性名称”,并通过设置样本属性值,筛选出分组结果。