更新时间:2025-08-18 GMT+08:00

视频制作

用户可以使用MetaStudio工作台页面的“分身视频制作”功能,制作数字人视频。

操作前准备

  • 如果系统预置形象不满足要求,请参考形象制作,提前定制符合要求的分身数字人形象。

操作限制

  • MetaStudio控制台预置形象的有效使用期为3年,在2027年的年中前可放心使用。具体下线时间请关注MetaStudio服务,会提前3个月在现网开放下线公告。
  • 视频制作限制,如视频制作限制所示。
  • 推荐使用Chrome浏览器访问MetaStudio控制台。

操作视频

本视频介绍华为云MetaStudio的分身视频制作功能,指导用户在控制台进行分身视频制作,生成数字人视频。

操作步骤

  1. 登录MetaStudio控制台,进入MetaStudio服务概览页面。
  2. 单击“前往MetaStudio工作台”,进入MetaStudio工作台页面。
  1. 单击“分身视频制作”卡片,进入视频制作界面,详见视频制作界面说明-图1
  2. 参考视频制作公共配置,进行视频画面制作。

    • 视频素材区域,除了系统预置素材外,角色还可以自定义新增;背景、PPT、贴图、视频和音乐还可以从本地导入使用。
    • 从视频素材区域添加至视频预览区域中的PPT、贴图、视频和数字人支持进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。
    • 单击视频预览区域上方的图标,可以切换视频画面比例为横屏“16:9”或竖屏“9:16”。

  3. 视频语音制作。

    支持如下2种方式,可以按场景各选一种方式生成语音。

    • 文本驱动

      在文本输入框中,输入文本内容,以生成音频,如图1所示。

      文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。

      图1 文本驱动

      文本内容的操作说明如表1所示。不同声音模型对表1中操作的支持情况有差异,所以如果表1中操作项置灰,说明当前声音模型不支持此操作。需要重新选择一个支持所需操作的声音模型进行设置。

      表1 操作说明

      操作

      说明

      音色设置

      单击音色名称,在弹出的声音对话框中,选择需要的声音。

      • 无标注的系统声音,均为免费声音,可直接选用。
      • 标注有“第三方”的声音,需要购买激活后才能使用,操作请参考购买出门问问声音套餐

      插入动作

      插入动作的详细操作说明,请参见插入动作

      插入停顿

      将鼠标放在需要停顿的文字右侧,单击“插入停顿”。在弹出的提示框中,选择“换气”或者停顿的时间,也支持自定义停顿时长。

      连读

      选中需要连读的文本内容,单击“连读”。

      多音字

      选中文本中的多音字,单击“多音字”,在弹出的提示框中,选择正确的发音或者自定义发音。

      这里设置的多音字,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。

      别名

      选中需要通过别名播报的文本内容 ,单击“别名”,设置为实际播报的内容。

      这里设置的别名,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。

      数字英文

      示例数字“1024”的读法如下所示:

      • 数字:一零二四
      • 数值:一千零二十四
      • 日期:十月二十四
      • 电话:幺零二四

      示例英文“API”的读法如下所示:

      • 字母:API
      • 单词:api

      音标

      选中英文单词,输入合适的音标。也可以单击“音标搜索”,在词典中输入单词搜索,直接复制正确的音标到这里。

      局部语速

      选中需要变速播报的文本,设置局部语速。

      取值范围[0.5x,2x],含义如下所示:

      • 0.5x:0.5倍速播报,即减速播报。
      • 2x:2倍速播报,即加速播报。

      全局语速

      设置全局语速。

      取值范围[0.5x,2x],含义如下所示:

      • 0.5x:0.5倍速播报,即减速播报。
      • 2x:2倍速播报,即加速播报。

      特殊词表

      支持开启或关闭“特殊词表”配置。通过特殊词表配置,可对特定文本设置拼音、音标、连读、别名、数字英文,并一键应用至全局,详见配置特殊词表

      试听

      单击“试听”,试听语音效果。

      生成预览

      单击“生成预览”,选择“当前场景”或“所有场景”,以预览其对应的音频和字幕播放效果。

      须知:仅部分模型支持预览动态画面,且口型和动作仅为示例,不匹配实际播报效果。其余模型的预览视频均为静态页面,需合成视频后,才能查看实际的动作和口型播报效果。

      图标

      单击图标,放大展示“文本驱动”页签,提升用户操作体验。

      单击“确定”,可关闭页面。

      图标

      调整视频播报的音量。

      图标

      字幕设置。开启字幕的操作如下所示,也可查看设置字幕

      1. 单击图标开启字幕。
      2. 单击“生成预览”,选择“当前场景”或“全部场景”,生成字幕内容和预览视频。

        如果是“文本驱动”直接提取文本生成字幕内容。如果是“音频驱动”,会将音频转化为文本后,再生成字幕内容。

      3. 画布左侧展示字幕内容,支持修改字幕内容、调整字幕样式。

      须知:“音频驱动”方式目前仅支持中文普通话的场景开启字幕。

      图标

      展示当前视频的宽高比。

      图标

      第一次单击可折叠“文本驱动/音频驱动”,第二次单击后恢复展示。

    • 音频驱动

      需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。

      可单击“导入”上传音频,也可以直接拖拽本地音频文件至提示区域中,完成上传。单击左侧的图标,可试听音频效果。如果音频效果不佳,可以单击“导入”,覆盖更新音频。

      图2 音频驱动

  4. 音频制作完成后,可单击音量图标,调整音频的音量。

    上述操作全部完成后,第一个场景的视频内容制作完成。

  5. 如需更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。

    如果视频内容是分享PPT,可在“PPT”页签,先从本地导入PPT,再插入需要分享的PPT页,详见PPT。每页PPT会对应生成一个场景,依次设置完成所有场景即可。

  6. 所有场景设置完成后,单击界面右上角的“合成视频”,弹出“视频合成设置”对话框。

    参数说明如表2所示。
    表2 参数说明

    参数

    说明

    导出为

    输入导出文件的名称。

    格式

    合成视频的格式,默认为MP4格式。

    如果视频背景选择透明背景,还支持导出为MOV格式。但是MOV格式导出功能默认不开放,需提交工单申请使用权限后,才会展示出来。且合成MOV格式视频有如下限制:

    • 文本驱动所有场景不超过1500字符。
    • 音频驱动所有场景的音频总时长不超过5分钟。
    • 导出的MOV视频,不支持在MetaStudio控制台查看,需导出至本地后,在支持的视频软件中查看。

    分辨率

    选择合适的视频分辨率。

    画质增强

    开启后将提升视频清晰度,但合成的时间会相应变长。

    请根据实际情况确定是否开启。

  7. 单击“确定”,弹出“视频制作任务中心”对话框。

    可查看视频合成任务的进度,直至合成成功。

  8. 单击“合成成功”状态右侧的图标,进入视频详情页面,如图3所示。

    单击“预览”,可以看到合成的视频。预览过程中,可全屏播放,或下载视频到本地。合成视频默认为激活状态,可以单击“取消激活”,取消激活视频资产。

    须知:

视频合成后处理

如果用户对合成的视频不满意,可以参考下述步骤,进行二次制作,重新合成。
  1. 在左侧导航栏中,选择“工作台”。
  2. 在“最近项目”区域,选择“视频项目”页签后,右侧页签选择“视频草稿”,查看视频草稿列表,如图4所示。
    图4 视频项目
  3. 将鼠标移至卡片的文字描述区域,单击“编辑视频”,如图5所示。
    进入视频编辑界面,更新视频内容,重新合成视频。
    图5 我的视频