更新时间:2024-08-09 GMT+08:00
分享

算法备案公示

下述内容为MetaStudio服务提供的算法备案信息、基本原理、运行机制和目的意图等内容,以保障用户的知情权,方便用户更好的选择和使用MetaStudio服务。

华为云MetaStudio分身数字人驱动算法

表1 分身数字人驱动算法

算法项

描述

算法名称

华为云MetaStudio分身数字人驱动算法

备案编号

网信算备520111252474601240045号

算法基本原理

分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后,输入音频来合成数字人视频的一种技术。

其基本情况包括:

  • 输入数据:真人视频、音频。
  • 算法原理:通过深度学习算法来学习真人视频,生成驱动该真人形象的数字人模型。通过该模型输入音频,合成数字人视频。
  • 输出结果:数字人视频。
  • 应用领域:分身数字人驱动算法可以应用于真人视频自动生成,包括新闻播报,课件制作等场景,以取代真人视频拍摄,提升视频内容生产效率。

算法运行机制

  1. 选择一段真人视频。
  2. 输入真人视频,经过平台专家安全审核通过,且用户授权使用后,由训练人员选取真人视频中符合要求的视频进行预处理。预处理完成后,进行深度学习训练,生成该真人形象的数字人驱动模型。
  3. 推理阶段输入一段音频。
  4. 音频输入至数字人驱动模型后,经过模型推理生成数字人形象播报视频。
  5. 数字人视频通过审核后返回给用户。

算法应用场景

分身数字人驱动算法可以应用于真人视频自动生成,包括新闻播报、课件制作等场景,以取代真人视频拍摄,提升视频内容生产效率。

算法目的意图

可以使用授权过的真人视频,在预训练模型基础上,生成真人数字人驱动模型。该模型可基于音频生成口型匹配的数字人视频,实现真人视频自动生成,包括新闻播报、课件制作等场景,以取代真人视频拍摄,提升视频内容生产效率。

华为云MetaStudio分身数字人声音制作算法

表2 声音制作算法

算法项

描述

算法名称

华为云MetaStudio分身数字人声音制作算法

备案编号

网信算备520111252474601240079号

算法基本原理

分身数字人声音制作算法是指使用深度学习算法生成数字人声音模型,再使用该模型通过输入文字生成数字人语音的一种技术。

其基本情况包括:

  • 输入数据:真人语音音频 。
  • 算法原理:通过深度学习算法,学习真人语音音频生成数字人声音模型,通过该模型,输入文本生成数字人语音。
  • 输出结果:接近真人音色的数字人语音。
  • 应用领域:分身数字人声音制作算法可以应用于数字人视频合成时的语音配音。在新闻播报、课件制作等场景模拟真人配音,提升数字内容生产效率。

算法运行机制

训练阶段:

  1. 用户上传一段真人语音音频及授权书作为输入。
  2. 音频经过人工安全审核和授权认证后,由训练人员标注用于训练的音频数据,使用深度学习算法训练生成数字人声音模型。

推理阶段:

  1. 用户上传一段文本作为输入文本内容,由系统自动审核。
  2. 输入文本使用数字人声音模型推理生成数字人语音。

算法应用场景

分身数字人声音制作算法可以应用于数字人语音合成。在新闻播报、课件制作等场景模拟真人配音,提升数字内容生产效率。

算法目的意图

可以通过有授权的真人语音音频,在预训练模型基础上微调生成数字人声音模型,该模型可用于基于文本合成类似真人音色的数字人语音。

华为云MetaStudio数字人照片建模算法

表3 照片建模算法

算法项

描述

算法名称

华为云MetaStudio数字人照片建模算法

备案编号

网信算备520111252474601230033号

算法基本原理

数字人照片建模算法是指使用深度学习算法将已授权的人像照片信息转换为数字人3D模型的一种技术。

其基本情况包括:

  • 输入数据:有授权的人像照片。
  • 算法原理:使用深度学习算法,将人像照片转换为数字人3D模型。
  • 输出结果:数字人3D模型。
  • 应用领域:数字人照片建模算法可应用于影视制作、仿真形象生成、虚拟现实等领域,能加速数字人3D模型产业的生产效率。

算法运行机制

  1. 选择一张已授权的人像照片作为输入。
  2. 输入的人像照片经过安全过滤,判断是否通过安全筛选,若不通过则不进行数据生成和结果返回操作。
  3. 将人像照片输入至算法模型中,通过特征提取、人脸重建、素材特征匹配等进行人头重建,生成3D人头模型。
  4. 生成的人头模型通过配上默认身体素材配件,形成完整的3D数字人模型,并返回结果。

算法应用场景

数字人照片建模算法可应用于影视制作、仿真形象生成、虚拟现实等领域,能加速数字人模型产业的生产效率。

算法目的意图

使用已授权的人像照片生成3D数字人模型,应用于如下场景:

  • 用于影视动漫制作角色初始模型的快速生成。
  • 用于虚拟现实Avatar形象快速生成。
  • 其他需要数字人3D形象的领域,快速提升形象生成效率。

华为云MetaStudio数字人视觉驱动算法

表4 视觉驱动算法

算法项

描述

算法名称

华为云MetaStudio数字人视觉驱动算法

备案编号

网信算备520111252474601240053号

算法基本原理

数字人视觉驱动算法是指使用神经网络,将视频中的人脸表情和人体姿态,转换为表情基系数及数字人骨骼驱动数据的一种技术。

其基本情况包括:

  • 输入数据:单人表演视频。
  • 算法原理:通过深度学习算法识别人脸表情和人体姿态,转换为表情基系数及数字人骨骼驱动数据。
  • 输出结果:表情基系数、数字人骨骼驱动数据。
  • 应用领域:应用于影视制作、虚拟人姿态控制等场景,加速影视制作的动画生成效率,提升虚拟人控制体验。

算法运行机制

  1. 输入为单人表演视频。
  2. 通过视频抽帧得到单张图片。经过安全过滤,判断是否通过安全筛选,若不通过则不进行数据生成和结果返回操作。
  3. 将视频图片输入至算法模型中,将视频图像分割为面部、手部和身体三个区域。
  4. 使用深度学习算法,识别面部区域转化为面部表情,识别手部区域转化为手部骨骼驱动数据,识别身体转化为人体骨骼驱动数据。
  5. 对算法输出系数进行平滑处理及异常数据过滤,返回结果。

算法应用场景

数字人视觉驱动算法可用于影视制作、虚拟人姿态控制等场景,加速影视制作的动画生成效率,提升虚拟人控制体验。

算法目的意图

  • 视频驱动数字人动作,实现影视制作动画快速生成。
  • 虚拟现实Avatar形象姿态控制。
  • 其他需要通过表演者驱动数字人动作表情的领域,以提升形象动画生产效率。

华为云MetaStudio数字人语音驱动算法

表5 语音驱动算法

算法项

描述

算法名称

华为云MetaStudio数字人语音驱动算法

备案编号

网信算备520111252474601240061号

算法基本原理

数字人语音驱动算法是指使用深度学习将语音转换成3D数字人表情和肢体驱动数据的一种技术。

其基本情况包括:

  • 输入数据:语音音频数据。
  • 算法原理:通过深度学习算法,提取语音音频中的特征,并转化为表情驱动的表情基系数。
  • 输出结果:表情基系数。
  • 应用领域:应用于3D数字人文本和语音驱动场景,包括:短视频制作、直播和交互等。在特定场景中,可替代人快速生成视频内容,提升内容生成的效率。

算法运行机制

  1. 训练阶段输入预先获取的高质量语音及其表情基系数,通过学习获得语音特征与表情基系数的关系。
  2. 用户使用时,输入音频流或音频文件。
  3. 音频经过安全审核后,进入下一步操作,否则不返回结果。
  4. 对音频特征提取后,获取音频特征,再通过算法将音频特征转换为表情基系数。
  5. 返回结果数据。

算法应用场景

数字人语音驱动算法可用于短视频制作、直播、交互等场景。在特定场景中,可替代人快速生成视频内容,以提升内容生成的效率。

算法目的意图

通过学习语音与表情基系数的关系,实现使用语音生成视频的能力。在使用数据人形象生成视频的场景,包括短视频制作、直播、智能交互等,可快速生成不同台词的视频内容。

相关文档