创建声音制作任务
MetaStudio已经预置了各种类型的声音,如果仍无法满足用户的需求,请参考本节操作,自定义生成声音。
操作前准备
用户创建声音制作任务前,需要参考操作步骤准备如下内容:
- (可选)参考声音制作页面的“录音指导”,提前录制生成语料。仅制作声音,选择“语料上传”方式时,需要此语料。
- 声音授权签署文件,如授权书所示。
操作步骤
- 单击“声音制作”下方的“开始创建”,进入声音制作页面。
界面左侧是声音制作页面,右侧为声音制作流程。声音制作录制教程,可以帮助用户快速制作声音。图1 定制声音
- 配置声音制作参数。
界面操作详情,如表1所示。
表1 界面操作说明 区域
说明
请选择声音制作服务
系统提供如下声音制作服务,请选择一种声音制作服务。
- 基础版声音制作:仅需20条语料。音频格式为WAV文件。音频时长为3~10分钟,建议5分钟。
- 进阶版声音制作:仅需100条语料。音频格式为WAV文件。音频时长10~30分钟,建议15分钟。
- 高品质声音制作:需要500条语料。音频格式为WAV文件。音频时长1小时以上,建议1小时。仅支持录制成长音频,每句之间需要有2~3秒的停顿。
每种声音制作服务后面都会展示剩余次数,需要保证剩余次数充足。
其中,进阶版和高品质声音制作需要更多语料,训练时长更长,声音效果更佳。
定制声音名称
输入声音名称。
示例:欢快女声。
请选择声音性别
声音的性别,如下所示:
- 男生
- 女生
选择语言
声音的语言,包含如下选项:
- 中文
- 英文
选择声音标签
声音的标签,包含如下选项:
- 电商
- 新闻
- 营销
针对上述标签,MetaStudio服务预置了相应的文案内容,如文案样例(基础版)、文案样例(进阶版)和文案样例(高品质)所示。如果按句录制方式(仅基础版和进阶版支持),且使用预置文案,必须选对标签。
请制作声音
制作声音的方式为:
- 语料上传:界面提供录音指导,需要按照指导,基础版录制20句音频,进阶版录制100句音频,高品质声音制作需要录制500句以上的音频。音频仅支持wav格式。建议整段录制生成一个长音频文件,直接上传,无需压缩,无需携带文案txt文件。
- 在线录音:需要用户在线录制,先单击“开始环境检测”。首次录制界面会弹出提示,需要允许使用您的麦克风。当界面显示“录制环境合格”时,单击下方的“开始录音”。界面会弹出提示,开始录音后,将不能更改前面设置的基础信息,单击“确定”。单击“开始录音”,启动录制。根据界面提示,录制20条或100条合格的语料音频即可。
如果选择“语料上传”的方式,且未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景;如果选择“在线录音”的方式,服务会根据声音标签,生成其对应格式的音频文件,界面不展示音频文件格式,用户可不关注。
声音授权
单击“授权书模板”,下载授权书模板后打印。用户手写相关信息后,重新生成签署后的pdf文件,或者拍摄成jpg或png格式的图片后上传。
授权书内容,可参考授权书。
第三方用户ID(可选)
第三方用户ID,为查询资产列表接口参数“X-App-UserId”的值。
仅需调用查询资产列表接口,通过参数“X-App-UserId”过滤查询2D数字人模型资产时填写。
- 单击“提交制作”。
弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量,本次将消耗1个资源。
- 如果用户确认无误,单击“确认提交”。
声音制作任务提交成功后,界面提示“制作任务提交成功”,如图2所示。
- 用户可以单击“查看制作任务列表”,查看声音制作任务审核进展。
当状态变更为“系统审核完成”,自动启动算法训练。如果系统存在多个算法训练任务,可能会存在排队和延迟的现象,请耐心等待。