文档首页/ 数字内容生产线 MetaStudio/ 用户指南/ 声音制作/ 创建声音制作任务(自研模型)
更新时间:2024-12-04 GMT+08:00
分享

创建声音制作任务(自研模型)

MetaStudio已经预置了各种类型的声音,可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求,可使用自研模型自定义生成声音。

操作限制

MetaStudio不支持个人用户定制声音,仅支持企业用户。

定制声音时,从平台下载的授权书中有明确说明,定制音色需授权给公司使用。

操作前准备

用户创建声音制作任务前,需要参考操作步骤准备如下内容:

  • 使用“语料上传”方式上传语音文件前,需参考声音制作页面的“录音指导”,提前录制好音频。
  • 声音授权签署文件,如授权书所示。

操作步骤

  1. 登录MetaStudio控制台
  1. 单击“声音制作”下方的“开始创建”,进入声音制作页面。

    界面左侧是声音制作页面,右侧为声音制作流程。声音制作录制教程,可以帮助用户快速制作声音。
    图1 定制声音

  2. 在“华为模型”页签,配置声音制作参数。

    界面操作详情,如表1所示。
    表1 界面操作说明

    区域

    说明

    声音制作方式

    MetaStudio提供下述声音制作方式:

    • 基础版声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长3~10分钟,建议5分钟。
    • 进阶版声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长10~30分钟,建议15分钟。
    • 高品质声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长1小时以上,建议1小时。

    每种声音制作方式后面都会展示剩余次数,需要保证剩余次数充足。录制过程中,每句之间有2~3秒的停顿。

    其中,进阶版和高品质声音制作需要更多语料,训练时长更长,声音效果更佳。

    请完善声音信息

    输入声音名称。

    示例:欢快女声。

    请制作声音

    制作声音的方式为“语料上传”。界面提供录音指导,需要按照指导,录制生成一个符合时长要求的基础版、进阶版或高品质音频文件。WAV或MP3格式音频文件支持直接上传,无需压缩,无需携带文案txt文件。

    如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。

    请选择声音性别

    声音的性别,用于匹配声音模型的精准度。

    如下所示:

    • 男生
    • 女生

    原始输入语言

    上传语料所使用的语言。

    包含如下语言:

    • 中文
    • 英文

    须知:当前参数配置仅作为标识,对训练结果没有任何影响。

    选择声音标签

    声音的标签。作用为选择声音时,快速筛选领域。

    包含如下选项:

    • 新闻
    • 营销

    针对上述标签,MetaStudio服务预置了相应的文案内容,如文案样例(基础版)文案样例(进阶版)文案样例(高品质)所示。如果使用预置文案,必须选对标签。

    声音授权

    单击“授权书模板”,下载授权书模板后打印。用户手写相关信息后,重新生成签署后的pdf文件,或者拍摄成jpg或png格式的图片后上传。

    授权书内容,可参考授权书

    联系方式(可选)

    可输入有效的手机号。

  3. 单击“提交制作”。

    弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量,本次将消耗1个资源。

  4. 如果用户确认无误,单击“确认提交”。

    声音制作任务提交成功后,界面提示“制作任务提交成功”,如图2所示。

    声音制作任务提交成功后,需要等待1天左右的时间审核。任务审核通过后,启动声音制作。

    声音模型制作耗时,如下所示:

    • 基础版:约1~3个工作日。
    • 进阶版:约1~3个工作日。
    • 高品质:约5个工作日。
      图2 制作任务提交成功

  5. 用户可以单击“查看制作任务列表”,查看声音制作任务审核进展。

    当状态变更为“系统审核完成”,自动启动算法训练。如果系统存在多个算法训练任务,可能会存在排队和延迟的现象,请耐心等待。

相关文档