更新时间:2024-10-24 GMT+08:00

准备声音分类数据

使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。

声音分类的数据要求

  • 音频只支持16bit的WAV格式。支持WAV的所有子格式。
  • 单条音频时长应大于1s,大小不能超过4MB。
  • 适当增加训练数据,会提升模型的精度。声音分类建议每类音频至少20条,每类音频总时长至少5分钟。
  • 建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。
  • 训练集的数据质量对于模型的精度有很大影响,建议训练集音频的采样率和采样精度保持一致。
  • 标注质量对于最终的模型精度有极大的影响,标注过程中尽量不要出现误标情况。
  • 音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。

数据上传至OBS

在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。

上传OBS的文件规范:

  • 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”
  • 如需要提前上传待标注的音频,请创建一个空文件夹,然后将音频文件保存在该文件夹下,音频的目录结构如:“/bucketName/data-cat/cat.wav”

上传OBS的操作步骤

执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。

  1. 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。
  2. 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。
  • 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 用于训练的音频,至少有2种以上的分类,每种分类的音频数据数不少20条。

创建数据集

数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集