文档首页 > > 自动学习用户指南> 声音分类> 准备数据

准备数据

分享
更新时间:2020/07/06 GMT+08:00

使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。

数据上传至OBS

本次操作将使用OBS客户端上传数据,OBS创建桶以及上传文件的更多操作方式及指导,请参见创建桶上传对象

执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。

  1. 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。
  2. 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。

声音分类的数据要求

  • 音频只支持16bit的WAV格式。支持WAV的所有子格式。
  • 单条音频时长应大于1s,大小不能超过4MB。
  • 适当增加训练数据,会提升模型的精度。声音分类建议每类音频至少50条,每类音频总时长至少5分钟。
  • 建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。
  • 训练集的数据质量对于模型的精度有很大影响,建议训练集音频的采样率和采样精度保持一致。
  • 标注质量对于最终的模型精度有极大的影响,标注过程中尽量不要出现误标情况。

OBS上传文件规范

  • 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”
  • 如需要提前上传待标注的音频,请创建一个空文件夹,然后将音频文件保存在该文件夹下,音频的目录结构如:“/bucketName/data-cat/cat.wav”
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问