标注数据
由于模型训练过程需要大量有标签的数据,如果开发应用时,上传的训练数据集是未标注的,需要对数据集中的数据进行标注。
针对文本分类场景,是对文本的内容按照标签进行分类处理,标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。
进入数据标注页面
在“数据选择”页面,新建数据集后,单击操作列的“标注”,进入数据概览页,单击右上角的“开始标注”,进入“数据标注”页面。
标注文本
数据集详情页中,展示了此数据集中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。
- 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。
以此类推,不断选中标注对象,并为其添加标签。
图2 文本分类标注
- 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。
添加标签
- 在“未标注”页签添加:单击页面中标签集右侧的加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。
图3 添加标签(1)
- 在“已标注”页签添加:在右侧单击页面中全部标签加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。
图4 添加标签(2)
图5 新增标签
查看已标注文本
在数据集详情页,单击“已标注”页签,您可以查看已完成标注的文本列表。您也可以在右侧的“全部标签”中了解当前数据集支持的所有标签信息。
修改标注
当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。
- 基于文本修改
在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。
在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。
- 基于标签修改
在数据集详情页,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。
- 批量修改:在“全部标签”区域中,单击操作列的编辑图标,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。
- 批量删除:在“全部标签”区域中,单击操作列的删除图标,在弹出对话框中,可选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”,然后单击“确定”。
添加文件
除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。
- 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”。
- 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,完成设置后选择上传文件。
选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”或“csv”,且一次上传文件的总大小不能超过8MB。“文本与标签分割符”与“多标签分割符”不能选同一个。
- “模式”:选择“文本和标注合并”或“文本和标注分离”模式。界面中已给出示例,请参考示例判断需添加的文件属于哪一种模式。
- “文本与标签分隔符”:可设置为“Tab键”、“空格”、“分号”、“逗号”或“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。
- “多标签分隔符”:可设置为“Tab键”、“空格”、“分号”、“逗号”或“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。
图6 添加文件
- 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”或“已标注”的文本列表中。
删除文件
通过数据删除操作,可将需要丢弃的文件数据快速删除。
- 在“未标注”页面中,单击选中需要删除的文本对象,然后单击左上角“删除”,即可完成文本的删除操作。
- 在“已标注”页面中,选中待删除的文本对象,然后单击“删除”,删除单个文本。或者选择“选择当前页”选中该页面所有文本,然后单击左上角“删除”,即可完成当前页所有文本的删除操作。
其中,被选中的文本,其背景将显示为蓝色。