更新时间:2025-02-19 GMT+08:00
分享

算法备案公示

下述内容为MetaStudio服务提供的算法备案信息、基本原理、运行机制和目的意图等内容,以保障用户的知情权,方便用户更好的选择和使用MetaStudio服务。

华为云MetaStudio分身数字人驱动算法

表1 分身数字人驱动算法

算法项

描述

算法名称

华为云MetaStudio分身数字人驱动算法

备案编号

网信算备520111252474601240045号

算法基本原理

分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后,输入音频来合成数字人视频的一种技术。

其基本情况包括:

  • 输入数据:真人视频、音频。
  • 算法原理:通过深度学习算法来学习真人视频,生成驱动该真人形象的数字人模型。通过该模型输入音频,合成数字人视频。
  • 输出结果:数字人视频。
  • 应用领域:分身数字人驱动算法可以应用于真人视频自动生成,包括新闻播报,课件制作等场景,以取代真人视频拍摄,提升视频内容生产效率。

算法运行机制

  1. 选择一段真人视频。
  2. 输入真人视频,经过平台专家安全审核通过,且用户授权使用后,由训练人员选取真人视频中符合要求的视频进行预处理。预处理完成后,进行深度学习训练,生成该真人形象的数字人驱动模型。
  3. 推理阶段输入一段音频。
  4. 音频输入至数字人驱动模型后,经过模型推理生成数字人形象播报视频。
  5. 数字人视频通过审核后返回给用户。

算法应用场景

分身数字人驱动算法可以应用于真人视频自动生成,包括新闻播报、课件制作等场景,以取代真人视频拍摄,提升视频内容生产效率。

算法目的意图

可以使用授权过的真人视频,在预训练模型基础上,生成真人数字人驱动模型。该模型可基于音频生成口型匹配的数字人视频,实现真人视频自动生成,包括新闻播报、课件制作等场景,以取代真人视频拍摄,提升视频内容生产效率。

华为云MetaStudio分身数字人声音制作算法

表2 声音制作算法

算法项

描述

算法名称

华为云MetaStudio分身数字人声音制作算法

备案编号

网信算备520111252474601240079号

算法基本原理

分身数字人声音制作算法是指使用深度学习算法生成数字人声音模型,再使用该模型通过输入文字生成数字人语音的一种技术。

其基本情况包括:

  • 输入数据:真人语音音频 。
  • 算法原理:通过深度学习算法,学习真人语音音频生成数字人声音模型,通过该模型,输入文本生成数字人语音。
  • 输出结果:接近真人音色的数字人语音。
  • 应用领域:分身数字人声音制作算法可以应用于数字人视频合成时的语音配音。在新闻播报、课件制作等场景模拟真人配音,提升数字内容生产效率。

算法运行机制

训练阶段:

  1. 用户上传一段真人语音音频及授权书作为输入。
  2. 音频经过人工安全审核和授权认证后,由训练人员标注用于训练的音频数据,使用深度学习算法训练生成数字人声音模型。

推理阶段:

  1. 用户上传一段文本作为输入文本内容,由系统自动审核。
  2. 输入文本使用数字人声音模型推理生成数字人语音。

算法应用场景

分身数字人声音制作算法可以应用于数字人语音合成。在新闻播报、课件制作等场景模拟真人配音,提升数字内容生产效率。

算法目的意图

可以通过有授权的真人语音音频,在预训练模型基础上微调生成数字人声音模型,该模型可用于基于文本合成类似真人音色的数字人语音。

相关文档