更新时间:2026-03-12 GMT+08:00
分享

音频类数据集格式要求

ModelArts支持创建音频类数据集,具体格式要求详见表1

约束限制

  • 仅西南-贵阳一区域的新版控制台支持。
  • 从OBS导入:单个文件/压缩包大小不超过20GB;多个文件场景,文件数量不限制,总文件大小不超过20GB。
  • 本地导入:单个文件大小不超过1GB,文件数量最多20个。
  • jsonl文件格式仅支持UTF-8编码。

表1 音频类数据集格式要求

文件内容

文件格式

文件要求

音频

音频+jsonl(可选)

  • 音频格式支持:mp3、flac、wav、opus、aac、m4a格式,允许放在根目录或下层目录中。

    标注文件格式:可选,格式为UTF-8编码的jsonl文件,每一行描述一个音频文件在数据集中的相对路径以及其它信息。

示例如下所示:

具体的jsonl标注文件参考:

{"audio_name":"dir/001.mp3","caption":"1"}
{"audio_name":"dir/002.flac","caption":"2"}
{"audio_name":"dir/003.wav","caption":"3"}

相关文档