图像分割
由于模型训练过程需要大量有标签的图片数据,因此在模型训练之前需对没有标签的图片添加标签。您可以通过在ModelArts控制台进行标注,也可以对已标注图片修改或删除标签进行重新标注。
针对图像分割场景,开始标注前,您需要了解:
- 图片中需要提取轮廓的物体都要标注。
- 支持使用多边形标注和极点标注。
- 多边形标注,根据目标物体的轮廓绘制多边形。
- 极点标注,在目标物体轮廓的最上、最左、最下、最右的位置分别标注四个极点,极点要在物体的轮廓上。系统将根据标注的极点推理出物体的轮廓。对于背景比较复杂的图片,极点标注效果不佳,推荐使用多边形标注。
- 多边形标注或极点标注时,标注框或极点,必须在图片范围内,超出图片将导致后续作业异常。
开始标注
- 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入“数据集”管理页面。
- 在数据集列表中,基于“标注类型”选择需要进行标注的数据集,单击数据集名称进入数据集概览页。
此操作默认进入数据集当前版本的概览页,如果需要对其他版本进行数据标注,请先在“版本管理”操作中,将需要进行数据标注的版本设置为“当前版本。”详细操作指导请参见管理数据集版本。
- 在数据集概览页中,单击右上角“开始标注”,进入数据集详情页。数据集详情页默认展示此数据集下全部数据。
同步数据源
ModelArts会自动从数据集输入位置同步数据至数据集详情页,包含数据及标注信息。
- 对于图像分类数据集,同步数据源操作会以同级目录下的同名“txt”文件作为对应图像的标签。
- 对于物体检测、图像分割数据集,则以同级目录下的同名“xml”文件作为对应图像的标签。
为了快速获取OBS桶中最新数据,可在数据集详情页的“全部”或“未标注”页签中,单击“同步数据源”,快速将通过OBS上传的数据添加到数据集中。
筛选数据
在数据概览页中,默认展示数据集的概览情况。在界面右上方,单击“开始标注”,进入数据集的详细数据页面,默认展示数据集中全部数据。在“全部”、“未标注”或“已标注”页签下,您可以在筛选条件区域,添加筛选条件,快速过滤出您想要查看的数据。
支持的筛选条件如下所示,您可以设置一个或多个选项进行筛选。
- 难例集:难例或非难例。
- 标签:您可以选择全部标签,或者基于您指定的标签,选中其中一个或多个。
- 样本创建时间:1个月内、1天内或自定义,如果选择自定义,可以在时间框中指定明确时间范围。
- 文件名或目录:根据文件名称或者文件存储目录筛选。
- 标注人:选择执行标注操作的帐号名称。
- 样本属性:表示自动分组生成的属性。只有启用了自动分组任务后才可使用此筛选条件。
- 数据属性:暂不支持
标注图片(手工标注)
数据集详情页中,展示了此数据集中“未标注”和“已标注”的图片,默认显示“全部”的图片列表。
- 在“未标注”页签图片列表中,单击图片,自动跳转到标注页面。在标注页面,常用按钮的使用可参见表2。
- 选择标注方式。
在标注页面,上方工具栏提供了常用的标注方式及常用按钮,系统默认的标注方式为多边形标注。选择多边形标注或极点标注。
标注第一张图片时,一旦选择其中一种,其他所有图片都需要使用此方式进行标注。
图2 工具栏
- 标注物体。
以极点标注为例。识别图片中的物体,单击左键分别定位物体的最上、最左、最下、最右的位置点。确定位置后,将弹出对话框,填入标签名称,单击确定添加物体的标签。确定后系统将自动推理出物体的轮廓。
完成一张图片标注后,可单击图片下方图片列表,快速选中其他未标注的图片,然后在标注页面中执行标注操作。
图3 标注物体轮廓
- 单击页面上方“返回数据标注预览”查看标注信息,在弹框中单击“确定”保存当前标注并离开标注页面。
选中的图片被自动移动至“已标注”页签,且在“未标注”和“全部”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、标签对应的图片数量。
查看已标注图片
在数据集详情页,单击“已标注”页签,您可以查看已完成标注的图片列表。单击图片,可在右侧的“当前文件标签”中了解当前图片的标签信息。
修改标注信息
当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。
在数据集详情页面,单击“已标注”页签,然后在图片列表中选中待修改的图片,单击图片跳转到标注页面,在右侧“当前文件标签”区域中单击此图片已添加的标注信息。
- 修改标签:“标注”区域中,单击编辑图标,在弹出框中输入正确的标签名或标签颜色,然后单击“确定”完成修改。也可以单击标签,在图片标注区域,调整标注框的位置和大小,完成调整后,单击其他标签即可保存修改。
- 修改图片标注信息:在图片展示区,显示物体边缘,可单击蓝色圆点,将标注框调整至物体边缘。
- 删除标签:在“标注”区域中,单击删除图标即可删除此图片中的标签。图片的标签全部删除后,该图片会重新回到“未标注”页签。
添加图片
除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加图片,用于数据标注。
- 在数据集详情页面,单击“全部”或“未标注”页签,然后单击左上角“添加图片”。
- 在弹出的“添加图片”对话框中,单击“添加图片”。
选择本地环境中需要上传的图片,可以一次性选择多张图片。支持JPG、JPEG、PNG、BMP四种格式图片,单张图片大小不能超过5MB,单次上传的图片总大小不能超过8MB。
图片选择完成后,“添加图片”对话框将显示上传图片的缩略图以及图片大小。图5 添加图片
- 在添加图片对话框中,单击“确定”,完成添加图片的操作。
您添加的图片将自动呈现在“未标注”的图片列表中。且图片将自动存储至此“数据集输入位置”对应的OBS目录中。
删除图片
通过数据删除操作,可将需要丢弃的图片数据快速删除。
在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者选择“选择当前页”选中该页面所有图片,然后单击左上角“删除图片”。在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成图片删除操作。
其中,被选中的图片,其左上角将显示为勾选状态。如果当前页面无选中图片时,“删除图片”按钮为灰色,无法执行删除操作。
如果勾选了“同时删除源文件”,删除图片操作将删除对应OBS目录下存储的图片,此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。