创建声音制作任务（自研模型）

MetaStudio已经预置了各种类型的声音，可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求，可使用自研模型自定义生成声音。

操作限制

MetaStudio不支持个人用户定制声音，仅支持企业用户。

定制声音时，从平台下载的授权书中有明确说明，定制音色需授权给公司使用。

操作前准备

用户创建声音制作任务前，需要参考操作步骤准备如下内容：

使用“语料上传”方式上传语音文件前，需参考声音制作页面的“录音指导”，提前录制好音频。
声音授权签署文件，如授权书所示。

操作视频

本视频介绍华为云MetaStudio的声音模型训练功能，指导用户在控制台进行声音模型训练，生成数字人声音。

操作步骤

登录MetaStudio控制台，进入MetaStudio服务概览页面。
单击“前往MetaStudio工作台”，进入MetaStudio工作台页面。

单击“声音模型训练”卡片，进入声音制作页面。

界面左侧是声音制作页面，右侧为声音制作流程。声音制作录制教程，可以帮助用户快速制作声音。
图1 定制声音

在“华为模型”页签，配置声音制作参数。

界面操作详情，如表1所示。

表1 界面操作说明
区域	说明
声音制作方式	MetaStudio提供下述声音制作方式：基础版声音制作：需整段录制生成一个WAV或MP3格式的音频文件，时长3~10分钟，建议5分钟。进阶版声音制作：需整段录制生成一个WAV或MP3格式的音频文件，时长10~30分钟，建议15分钟。高品质声音制作：需整段录制生成一个WAV或MP3格式的音频文件，时长1小时以上，建议1小时。进阶版和高品质声音制作还支持风格/情感，需要一并上传录制好的风格/情感音频，一起提交模型训练。每种风格/情感需要录制3句音频，文本样例可参考表1，也可以阅读自己熟悉的情感/风格文本，生成30秒音频。每种声音制作方式后面都会展示剩余次数，需要保证剩余次数充足。录制过程中，每句之间有2~3秒的停顿。其中，进阶版和高品质声音制作需要更多语料，训练时长更长，声音效果更佳。
请完善声音信息	输入声音名称。示例：欢快女声。如需修改声音名称，在声音训练完成后，可以在“资产管理 > 我的模型 > 声音”页面，找到训练好的声音卡片，单击右下角的图标，从下拉框中选择“重命名”，修改声音名称。
请制作声音	制作声音的方式为“语料上传”。界面提供录音指导，需要按照指导，录制生成一个符合时长要求的基础版、进阶版或高品质音频文件。WAV或MP3格式音频文件支持直接上传，无需压缩，无需携带文案txt文件。如果未使用服务预置文案，声音标签仅作为标签，来区分声音使用场景。
请选择声音性别	声音的性别，用于匹配声音模型的精准度。如下所示：男生女生
请选择原始输入语言	上传语料所使用的语言。包含如下语言：中文英文须知：当前参数配置仅作为标识，对训练结果没有任何影响。
选择声音领域	声音适用的领域。用户选择声音时，可以通过领域快速筛选匹配音色。系统针对不同领域预置了不同风格的文本，声音训练完成后，可以在“资产管理 > 我的模型 > 声音”页签，试听当前音色在所选领域的文本播报效果。针对上述标签，MetaStudio服务预置了相应的文案内容，如文案样例（基础版）、文案样例（进阶版）和文案样例（高品质）所示。如果使用预置文案，必须选对标签。
声音授权	单击“授权书模板”，下载授权书模板后打印。用户手写相关信息后，重新生成签署后的pdf文件，或者拍摄成jpg或png格式的图片后上传。授权书内容，可参考授权书。
联系方式（可选）	可输入有效的手机号。

勾选声音授权使用说明，单击“提交制作”。

弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量，本次将消耗1个资源。
如果用户确认无误，单击“确认提交”。

声音制作任务提交成功后，界面提示“制作任务提交成功”，如图2所示。

声音制作任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，启动声音制作。

声音模型制作耗时，如下所示：
- 基础版：约1~3个工作日。
- 进阶版：约1~3个工作日。
- 高品质：约5个工作日。
  图2 制作任务提交成功
用户可以单击“查看制作任务列表”，查看声音制作任务审核进展。

当状态变更为“系统审核完成”，自动启动算法训练。如果系统存在多个算法训练任务，可能会存在排队和延迟的现象，请耐心等待。