本文导读

展开导读

文档首页/ 数字内容生产线 MetaStudio/ 用户指南/ 声音制作/ 创建声音制作任务（第三方模型）

创建声音制作任务（第三方模型）

更新时间：2024-12-23 GMT+08:00

查看PDF

MetaStudio已经预置了各种类型的声音，可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求，可使用第三方模型自定义生成声音。

支持如下第三方模型：

出门问问：详细说明，如下所示。
- 输入的语言不受限制。默认支持19种输入语言（中文、英文、粤语、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、泰语）的声音制作，操作请参考操作步骤（出门问问）。
- 输出的语言受限制。使用自定义声音合成音频时，仅支持17种语言：中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、荷兰语（暂未开放泰语）。
逻辑智能：支持3种原始输入语言（中文、英文、泰语）的声音制作，操作请参考操作步骤（逻辑智能）。生成的音色，在视频制作和视频直播时，也是支持识别并播报3种语言（中文、英文、泰语）。

操作限制

MetaStudio不支持个人用户定制声音，仅支持企业用户。

操作前准备

用户创建声音制作任务前，需要参考操作步骤（出门问问）准备完成如下内容：

“语料上传”方式制作声音时，需要参考声音制作页面的“录音指导”录制音频。
购买小语种克隆套餐包并激活使用，操作请参考购买出门问问声音套餐。

操作步骤（出门问问）

登录MetaStudio控制台。

单击“声音制作”下方的“开始创建”，进入声音制作页面。
选择“第三方模型”页签的“出门问问声音制作”方式。

界面左侧是声音制作页面，右侧为声音制作流程，如图1所示。
图1 定制声音

配置声音制作参数。

界面操作详情，如表1所示。

表1 界面操作说明
区域	说明
声音制作方式	选择“出门问问声音制作”。音频时长为0.5~180分钟，建议5分钟。音频格式为WAV或MP3文件，支持19种语言的声音制作。如果剩余次数为0，可单击“立即购买”，参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。
请完善声音信息	输入声音名称。示例：欢快女声。
请制作声音	界面提供录音指导，需要按照指导录制1分钟的长音频WAV或MP3文件。WAV或MP3文件支持直接上传，无需压缩，无需携带文案txt文件。如果未使用服务预置文案，声音标签仅作为标签，来区分声音使用场景。
请选择声音性别	声音的性别，用于匹配声音模型的精准度。如下所示：男生女生
请选择原始输入语言	选择上传语料所用到的语言。包含19种语言：中文、英文、粤语、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、泰语。须知：当前参数配置仅作为标识，对训练结果没有任何影响。
请选择输出模型语言	选择输出的声音模型支持的语言。支持如下语言：多语种：输出的声音模型，支持合成的语言类型包括中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、荷兰语。粤语
选择声音标签	声音的标签。用于选择声音时快速筛选领域。包含如下选项：新闻营销针对上述标签，MetaStudio服务预置了相应的文案内容，如文案样例（进阶版）所示。如果使用预置文案，必须选对标签。
请输入试听文本	请输入试听文本，声音训练完成以后，您可以试听该文本的合成效果。
联系方式（可选）	请输入手机号。

单击“提交制作”。

弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量，本次将消耗1个资源。
如果用户确认无误，单击“确认提交”。

声音制作任务提交成功后，界面提示“制作任务提交成功”，如图2所示。

声音制作任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，启动声音制作。声音模型制作耗时约5个工作日。
图2 制作任务提交成功
用户可以单击“查看制作任务列表”，查看声音制作任务审核进展。

当状态变更为“系统审核完成”，自动启动算法训练。如果系统存在多个算法训练任务，可能会存在排队和延迟的现象，请耐心等待。

操作步骤（逻辑智能）

登录MetaStudio控制台。

单击“声音制作”下方的“开始创建”，进入声音制作页面。
选择“第三方模型”页签的“逻辑智能声音制作”方式。

界面左侧是声音制作页面，右侧为声音制作流程，如图3所示。
图3 定制声音

配置声音制作参数。

界面操作详情，如表2所示。

表2 界面操作说明
区域	说明
声音制作方式	选择“逻辑智能声音制作”，支持3种语言（中文、英文、泰语）的声音制作。需提前录制一个时长5~15秒，建议10秒的音频WAV或MP3文件。如果超出5~15秒的范围，声音制作任务会审核不通过，需重新提交时长符合要求的音频进行训练。如果剩余次数为0，可单击“立即购买”，参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。
请完善声音信息	输入声音名称。示例：欢快女声。
请制作声音	界面提供录音指导，需要按照指导整段录制生成一个1分钟音频WAV或MP3文件。WAV或MP3文件支持直接上传，无需压缩，无需携带文案txt文件。如果未使用服务预置文案，声音标签仅作为标签，来区分声音使用场景。
请选择声音性别	声音的性别，用于匹配声音模型的精准度。男生女生
请选择原始输入语言	上传语料所使用的语言。此处选择仅作为标识，对训练结果没有任何影响。包含如下语言：中文英文泰语
选择声音标签	声音的标签。作用为选择声音时，快速筛选领域。包含如下选项：新闻营销针对上述标签，MetaStudio服务预置了相应的文案内容，如文案样例（进阶版）所示。如果使用预置文案，必须选对标签。
联系方式（可选）	请输入手机号。

单击“提交制作”。

弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量，本次将消耗1个资源。
如果用户确认无误，单击“确认提交”。

声音制作任务提交成功后，界面提示“制作任务提交成功”，如图2所示。

声音制作任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，启动声音制作。声音模型制作耗时约5个工作日。
图4 制作任务提交成功
用户可以单击“查看制作任务列表”，查看声音制作任务审核进展。

当状态变更为“系统审核完成”，自动启动算法训练。如果系统存在多个算法训练任务，可能会存在排队和延迟的现象，请耐心等待。

父主题： 声音制作

上一篇：创建声音制作任务（自研模型）

下一篇：查看声音

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消