真人声音录制
客户录制真人音频,上传至MetaStudio进行AI训练,即可得到和真人音色1:1复刻的声音模型。
声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。
声音制作的录制规格为:整段录制生成一个WAV或MP3格式音频,总时长10~30分钟,建议15分钟。
录音准备
开始录音
必须录制单人高质量、无噪音或背景音的人声语音,生成音频。支持使用苹果或者安卓手机录制视频,操作请参考手机录制音频。
具体的录音注意事项,如表2所示。
录音事项 |
说明 |
---|---|
话筒间距 |
调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 |
录音内容 |
每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。 |
音频格式 |
推荐使用无损音质格式保存音频文件,如WAV、MP3格式。 原始录音数据,需为48kHz采样率、16bit编码和单声道。 |
语音风格 |
录制全程保持语境风格一致,避免多种情绪混杂。 |
发音吐字 |
发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。 |
语速节奏 |
语速自然、平稳,切忌过快过慢、忽快忽慢。 |
音量适中 |
音量不能过小、过大、或忽大忽小,甚至削波爆音。 |
停顿断句 |
在标点或适当断句处自然停顿,需轻声换气。 当录制一个长音频文件时,每句之间需要有2~3秒的停顿。 |
重音位置 |
重音位置要合理,避免错误的重音。 |
阅读发音 |
按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需重新录制。 |
内容要求 |
不能使用短音频复制拼接成长音频,会影响训练效果,无法通过审核。 |
录制提交
需整段录制所有语料生成一个长音频WAV或MP3格式文件,每句之间有2~3秒的停顿。WAV或MP3格式文件可直接上传MetaStudio控制台,无需压缩,无需提供语料txt文件。推荐使用服务预置语料,也可自定义语料。系统会自动根据停顿做切割,自动识别文本内容。
音频文件命名无要求,可自定义,命名示例:Voice.wav。
制作声音模型
准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示:
声音制作耗时约7个工作日。
自定义声音应用方式,如下所示:
- 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、视频直播或智能交互等场景中。
- 通过MetaStudio的API调用自定义声音。