文档首页/ 数字内容生产线 MetaStudio/ 用户指南/ 声音制作/ 真人声音录制

更新时间：2024-12-11 GMT+08:00

真人声音录制

客户录制真人音频，上传至MetaStudio进行AI训练，即可得到和真人音色1:1复刻的声音模型。

声音模型可实现文本转语音，应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下：

基础版：整段录制生成一个WAV或MP3格式音频，总时长3~10分钟，建议5分钟。
进阶版：整段录制生成一个WAV或MP3格式音频，总时长10~30分钟，建议15分钟。
高品质：整段录制生成一个WAV或MP3格式音频，总时长1小时以上，建议1小时。

原声录制音频和其对应生成的音色播报示例，如客户声音制作案例所示。

录音准备

表1 录音准备
声音类型	录制设备和软件	录音环境	录音文案
基础版	优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。	录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。同一批录音必须使用同一套录制设备和环境。	建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。支持自定义文案，单句文案长短需和样例相当。不建议临场即兴发挥录制，避免出现较多嗯、啊等语气词，影响连贯性。
进阶版
高品质	专业录音棚+高保真MIC录制。

开始录音

必须录制单人高质量、无噪音或背景音的人声语音，生成音频。支持使用苹果或者安卓手机录制视频，操作请参考手机录制音频。

具体的录音注意事项，如表2所示。

表2 录音注意事项
录音事项	说明
话筒间距	调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。
录音内容	每句文案起始数字编号无需阅读。示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。
音频格式	推荐使用无损音质格式保存音频文件，如WAV、MP3格式。原始录音数据，需为48kHz采样率、16bit编码和单声道。
录制风格	录制全程保持语境风格一致，避免多种情绪混杂。如直播场景时，录制风格需接近日常直播效果。
发音吐字	发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。
语速节奏	语速自然、平稳，切忌过快过慢、忽快忽慢。
音量适中	音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值RMS在-9左右，无削波。
停顿断句	在标点或适当断句处自然停顿，需轻声换气。当录制一个长音频文件时，每句之间需要有2~3秒的停顿。
重音位置	重音位置要合理，避免错误的重音。
阅读发音	按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需重新录制。
内容要求	不能使用短音频复制拼接成长音频，会影响训练效果，无法通过审核。

录制提交

表3 录音内容提交规范
声音类型	音频说明	音频命名
基础版	需整段录制所有语料生成一个长音频WAV或MP3格式文件，每句之间有2~3秒的停顿。WAV或MP3格式文件可直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动识别文本内容。	音频文件命名无要求，可自定义，命名示例：Voice.wav。
进阶版
高品质

制作声音模型

准备好音频文件后，就可以上传至MetaStudio控制台，进行声音训练。详细操作如下所示：

声音模型制作耗时，如下所示：

基础版：约1~3个工作日。
进阶版：约1~3个工作日。
高品质：约5个工作日。

自定义声音应用方式，如下所示：

自定义声音生成后，会自动展示在MetaStudio控制台声音列表中，可用于分身数字人视频制作、视频直播或智能交互等场景中。
通过MetaStudio的API调用自定义声音。

父主题： 声音制作

上一篇：声音制作

下一篇：风格/情感声音录制

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问