更新时间:2023-09-06 GMT+08:00

文本分类

由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的文本添加标签。您也可以对已标注文本进行修改、删除和重新标注。

针对文本分类场景,是对文本的内容按照标签进行分类处理,开始标注前,您需要了解:

  • 文本标注支持多标签,即一个标注对象可添加多个标签。
  • 标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。

开始标注

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入“数据集”管理页面。
  2. 在数据集列表中,基于“标注类型”选择需要进行标注的数据集,单击数据集名称进入数据集概览页。

    此操作默认进入数据集当前版本的概览页,如果需要对其他版本进行数据标注,请先在“版本管理”操作中,将需要进行数据标注的版本设置为“当前版本。”详细操作指导请参见管理数据集版本

  3. 在数据集概览页中,单击右上角“开始标注”,进入数据集详情页。数据集详情页默认展示此数据集下全部数据。

标注文本

数据集详情页中,展示了此数据集中“未标注”“已标注”的文本,默认显示“未标注”的文本列表。

  1. “未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。

    以此类推,不断选中标注对象,并为其添加标签。

    图1 文本分类标注
  2. 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注

添加标签

  • “未标注”页签添加:单击页面中标签集右侧的加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。
    图2 添加标签(1)
  • “已标注”页签添加:在右侧单击页面中全部标签加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。
    图3 添加标签(2)
    图4 新增标签

查看已标注文本

在数据集详情页,单击“已标注”页签,您可以查看已完成标注的文本列表。您也可以在右侧的“全部标签”中了解当前数据集支持的所有标签信息。

修改标注

当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。

  • 基于文本修改

    在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。

    在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。

  • 基于标签修改

    在数据集详情页,单击“标签管理”页签,标签管理页显示全部标签的信息。

    • 修改:在标签管理页,单击操作列的“修改”,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。
    • 删除:在标签管理页,单击操作列的“删除”,单击“确定”完成删除。

      删除后的标签无法恢复,请谨慎操作。

添加文件

除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。

  1. 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”
  2. 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,完成设置后选择上传文件。

    选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”“csv”,且一次上传文件的总大小不能超过8MB。“文本与标签分割符”与“多标签分割符”不能选同一个。

    • “模式”:选择“文本和标注合并”“文本和标注分离”模式。界面中已给出示例,请参考示例判断需添加的文件属于哪一种模式。
    • “文本与标签分隔符”:可设置为“Tab键”“空格”“分号”“逗号”“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。
    • “多标签分隔符”:可设置为“Tab键”“空格”“分号”“逗号”“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。
    图5 添加文件
  3. 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”“已标注”的文本列表中。

删除文件

通过数据删除操作,可将需要丢弃的文件数据快速删除。

  • “未标注”页面中,单击选中需要删除的文本对象,然后单击左上角“删除”,即可完成文本的删除操作。
  • “已标注”页面中,选中待删除的文本对象,然后单击“删除”,删除单个文本。或者选择“选择当前页”选中该页面所有文本,然后单击左上角“删除”,即可完成当前页所有文本的删除操作。

其中,被选中的文本,其背景将显示为蓝色。