文档首页/ 数字内容生产线 MetaStudio/ 用户指南/ 声音制作/ 创建声音制作任务(第三方模型)
更新时间:2024-10-24 GMT+08:00

创建声音制作任务(第三方模型)

MetaStudio已经预置了各种类型的声音,可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求,可使用第三方模型自定义生成声音。

支持如下第三方模型:

  • 出门问问:支持18种输入语言(中文、英文、粤语、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语)的声音制作,操作请参考操作步骤(出门问问)
  • 逻辑智能:支持3种原始输入语言(中文、英文、泰语)的声音制作,操作请参考操作步骤(逻辑智能)。生成的音色,在视频制作和视频直播时,也是支持识别并播报3种语言(中文、英文、泰语)。

操作限制

  • MetaStudio不支持个人用户定制声音,仅支持企业用户。
  • 克隆声音不支持视频直播和智能交互。

操作前准备

用户创建声音制作任务前,需要参考操作步骤(出门问问)准备完成如下内容:

  • “语料上传”方式制作声音时,需要参考声音制作页面的“录音指导”录制音频。
  • 购买小语种克隆套餐包并激活使用,操作请参考购买出门问问声音套餐

操作步骤(出门问问)

  1. 登录MetaStudio控制台
  1. 单击“声音制作”下方的“开始创建”,进入声音制作页面。
  2. 选择“第三方模型”页签的“出门问问声音制作”方式。

    界面左侧是声音制作页面,右侧为声音制作流程,如图1所示。
    图1 定制声音

  3. 配置声音制作参数。

    界面操作详情,如表1所示。

    表1 界面操作说明

    区域

    说明

    声音制作方式

    选择“出门问问声音制作”。音频时长为10~60秒,建议30秒。音频格式为WAV或MP3文件,支持18种语言的声音制作。

    如果剩余次数为0,可单击“立即购买”,参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。

    请完善声音信息

    输入声音名称。

    示例:欢快女声。

    请选择声音性别

    声音的性别,如下所示:

    • 男生
    • 女生

    原始输入语言

    声音的原始输入语言,包含18种语言:中文、英文、粤语、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语。

    选择声音标签

    声音的标签,包含如下选项:

    • 新闻
    • 营销

    针对上述标签,MetaStudio服务预置了相应的文案内容,如文案样例(进阶版)所示。如果使用预置文案,必须选对标签。

    请制作声音

    界面提供录音指导,需要按照指导录制1分钟的长音频WAV或MP3文件。WAV或MP3文件支持直接上传,无需压缩,无需携带文案txt文件。

    如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。

    联系方式(可选)

    请输入手机号。

  4. 单击“提交制作”。

    弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量,本次将消耗1个资源。

  5. 如果用户确认无误,单击“确认提交”。

    声音制作任务提交成功后,界面提示“制作任务提交成功”,如图2所示。

    声音制作任务提交成功后,需要等待1天左右的时间审核。任务审核通过后,启动声音制作。声音模型制作耗时约5个工作日。
    图2 制作任务提交成功

  6. 用户可以单击“查看制作任务列表”,查看声音制作任务审核进展。

    当状态变更为“系统审核完成”,自动启动算法训练。如果系统存在多个算法训练任务,可能会存在排队和延迟的现象,请耐心等待。

操作步骤(逻辑智能)

  1. 登录MetaStudio控制台
  1. 单击“声音制作”下方的“开始创建”,进入声音制作页面。
  2. 选择“第三方模型”页签的“逻辑智能声音制作”方式。

    界面左侧是声音制作页面,右侧为声音制作流程,如图3所示。
    图3 定制声音

  3. 配置声音制作参数。

    界面操作详情,如表2所示。

    表2 界面操作说明

    区域

    说明

    声音制作方式

    选择“逻辑智能声音制作”,支持3种语言(中文、英文、泰语)的声音制作。

    需提前录制一个时长5~15秒,建议10秒的音频WAV或MP3文件。如果超出5~15秒的范围,声音制作任务会审核不通过,需重新提交时长符合要求的音频进行训练。

    如果剩余次数为0,可单击“立即购买”,参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。

    请完善声音信息

    输入声音名称。

    示例:欢快女声。

    请选择声音性别

    声音的性别,如下所示:

    • 男生
    • 女生

    原始输入语言

    声音的原始输入语言,包含如下3种语言。

    • 中文
    • 英文
    • 泰语

    选择声音标签

    声音的标签,包含如下选项:

    • 新闻
    • 营销

    针对上述标签,MetaStudio服务预置了相应的文案内容,如文案样例(进阶版)所示。如果使用预置文案,必须选对标签。

    请制作声音

    界面提供录音指导,需要按照指导整段录制生成一个1分钟音频WAV或MP3文件。WAV或MP3文件支持直接上传,无需压缩,无需携带文案txt文件。

    如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。

    联系方式(可选)

    请输入手机号。

  4. 单击“提交制作”。

    弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量,本次将消耗1个资源。

  5. 如果用户确认无误,单击“确认提交”。

    声音制作任务提交成功后,界面提示“制作任务提交成功”,如图2所示。

    声音制作任务提交成功后,需要等待1天左右的时间审核。任务审核通过后,启动声音制作。声音模型制作耗时约5个工作日。
    图4 制作任务提交成功

  6. 用户可以单击“查看制作任务列表”,查看声音制作任务审核进展。

    当状态变更为“系统审核完成”,自动启动算法训练。如果系统存在多个算法训练任务,可能会存在排队和延迟的现象,请耐心等待。