更新时间:2024-10-15 GMT+08:00
分享

人工标注音频数据

由于模型训练过程需要大量有标签的音频数据,因此在模型训练之前需对没有标签的音频添加标签。通过ModelArts您可对音频进行一键式批量添加标签,快速完成对音频的标注操作,也可以对已标注音频修改或删除标签进行重新标注。音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。

声音分类是对声音进行分类。语音内容是对语音内容进行标注。语音分割是对语音进行分段标注。

开始标注

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。

    数据管理模块在重构升级中,对未使用过数据管理的用户不可见。如果要使用数据管理相关功能,建议提交工单开通权限。

  2. 在标注作业列表右侧“所有类型”页签下拉选择标注类型,基于“标注类型”选择需要进行标注的标注作业,单击标注作业名称进入标注作业标注详情页。
    图1 下拉选择标注类型
  3. 在标注作业标注详情中,展示此标注作业下全部数据。

标注音频(声音分类)

标注作业详情页中,展示了此标注作业中“未标注”“已标注”的音频,默认显示“未标注”的音频列表。单击音频左侧,即可进行音频的试听。

  1. “未标注”页签,勾选需进行标注的音频。
    • 手工点选:在音频列表中,单击音频,当右上角出现蓝色勾选框时,表示已勾选。可勾选同类别的多个音频,一起添加标签。
    • 批量选中:如果音频列表的当前页,所有音频属于一种类型,可以在列表的右上角单击“选择当前页”,则当前页面所有的音频将选中。
  2. 添加标签。
    1. 在右侧的“添加标签”区域中,单击“标签”下侧的文本框设置标签。

      方式一(已存在标签):单击“标签”下方的文本框,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中选择已有的标签名称,然后单击“确定”

      方式二(新增标签):在“标签”下方的文本框中,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中输入新的标签名称,然后单击“确定”

    2. 选中的音频将被自动移动至“已标注”页签,且在“未标注”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、各标签对应的音频数量。

    快捷键的使用说明:为标签指定快捷键后,当您选择一段音频后,在键盘中按快捷键,即可为此音频增加为此快捷键对应的标签。例如“aa”标签对应的快捷键是“1”,在数据标注过程中,选中1个或多个文件,按“1”,界面将提示是否需要将此文件标注为“aa”标签,单击确认即可完成标注。

    快捷键对应的是标签,1个标签对应1个快捷键。不同的标签,不能指定为同一个快捷键。快捷键的使用,可以提升标注效率。

    图2 添加音频标签

标注音频(语音内容)

标注作业详情页中,展示了此数据集中“未标注”“已标注”的音频,默认显示“未标注”的音频列表。

  1. “未标注”页签左侧音频列表中,单击目标音频文件,在右侧的区域中出现音频,单击音频下方,即可进行音频播放。
  2. 根据播放内容,在下方“语音内容”文本框中填写音频内容。
  3. 输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。
    图3 语音内容音频标注

标注音频(语音分割)

标注作业详情页中,展示了此标注作业中“未标注”“已标注”的音频,默认显示“未标注”的音频列表。

  1. “未标注”页签左侧音频列表中,单击目标音频文件,在右侧的区域中出现音频,单击音频下方,即可进行音频播放。
  2. 根据播放内容,选取合适的音频段,在下方“语音内容”文本框中填写音频标签和内容。
    图4 语音标签音频标注
  3. 输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。

相关文档