更新时间:2022-05-07 GMT+08:00
分享

标注数据

由于模型训练过程需要大量有标签的数据,如果开发应用时,上传的训练数据集是未标注的,需要对数据集中的数据进行标注。

针对文本分类场景,是对文本的内容按照标签进行分类处理,标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。

进入数据标注页面

“数据选择”页面,新建数据集后,单击操作列的“标注”,进入数据概览页,单击右上角的“开始标注”,进入“数据标注”页面。

图1 数据标注

标注文本

数据集详情页中,展示了此数据集中“未标注”“已标注”的文本,默认显示“未标注”的文本列表。

  1. “未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。

    以此类推,不断选中标注对象,并为其添加标签。

    图2 文本分类标注
  2. 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注

添加标签

  • “未标注”页签添加:单击页面中标签集右侧的加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。
    图3 添加标签(1)
  • “已标注”页签添加:在右侧单击页面中全部标签加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。
    图4 添加标签(2)
    图5 新增标签

查看已标注文本

在数据集详情页,单击“已标注”页签,您可以查看已完成标注的文本列表。您也可以在右侧的“全部标签”中了解当前数据集支持的所有标签信息。

修改标注

当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。

  • 基于文本修改

    在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。

    在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。

  • 基于标签修改

    在数据集详情页,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。

    • 批量修改:在“全部标签”区域中,单击操作列的编辑图标,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。
    • 批量删除:在“全部标签”区域中,单击操作列的删除图标,在弹出对话框中,可选择“仅删除标签”“删除标签及仅包含此标签的标注对象”,然后单击“确定”

添加文件

除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。

  1. 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”
  2. 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,完成设置后选择上传文件。

    选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”“csv”,且一次上传文件的总大小不能超过8MB。“文本与标签分割符”与“多标签分割符”不能选同一个。

    • “模式”:选择“文本和标注合并”“文本和标注分离”模式。界面中已给出示例,请参考示例判断需添加的文件属于哪一种模式。
    • “文本与标签分隔符”:可设置为“Tab键”“空格”“分号”“逗号”“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。
    • “多标签分隔符”:可设置为“Tab键”“空格”“分号”“逗号”“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。
    图6 添加文件
  3. 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”“已标注”的文本列表中。

删除文件

通过数据删除操作,可将需要丢弃的文件数据快速删除。

  • “未标注”页面中,单击选中需要删除的文本对象,然后单击左上角“删除”,即可完成文本的删除操作。
  • “已标注”页面中,选中待删除的文本对象,然后单击“删除”,删除单个文本。或者选择“选择当前页”选中该页面所有文本,然后单击左上角“删除”,即可完成当前页所有文本的删除操作。

其中,被选中的文本,其背景将显示为蓝色。

相关文档