本文导读

相机架设&拍摄规格
灯光布置
收音
模特形象
绿幕数字人拍摄要求
交互数字人拍摄要求
走动数字人拍摄要求
实景数字人拍摄要求
视频提交
附录一：拍摄检查项
附录二：动作编排定制采集指南
附录三：台本范例

展开导读

文档首页/ 数字内容生产线 MetaStudio/ 用户指南/ 形象制作/ 拍摄形象采集视频

拍摄形象采集视频

更新时间：2025-03-04 GMT+08:00

查看PDF

您好！欢迎使用华为云数字人服务，本指南将协助您完成分身数字人形象的采集工作。

注意：

请注意，分身数字人形象制作的效果与您的录制效果有较大关联，为了获取更好的数字人效果，我们建议您使用以下标准进行拍摄。
拍摄时勿启用HDR模式（部分拍摄设备有此选项）。

以下是数字人拍摄标准概览，但是我们也建议您详细阅读每一块具体内容：

拍摄规格
视频总时长5分钟，分辨率和帧率为4K/25fps或以上，格式为MP4/MOV。
场地布置
- 背景：使用颜色均匀、无破损、无褶皱的绿幕背景。
- 灯光：使用均匀、稳定的光照，标准日光色色温。保证拍摄者光线充足，面部无阴影。录制过程中光线不发生显著变化。
- 机位：相机与人物眼神平齐，对焦于面部区域，确保面部清晰不失焦；建议竖拍，效果更佳。
- 收音：保证环境安静无噪声、无回声，避免其他人声干扰。
模特形象
- 面部：避免面部过油导致反光，确保面部无零散发丝，尽量不佩戴眼镜，避免反光。保证轮廓清晰，精神饱满。
- 着装：避免选择跟绿幕相近的绿色服饰，避免衣服上带有绿色图案。不戴可能会反光的金属耳饰、手链、手表。
拍摄流程
面带微笑，头部可自然摆动，动作自然，避免幅度过大，做完动作后手部返回初始位置；未说话时保持嘴巴闭合。
视频提交
训练视频需保留原声，保证音画同步。视频请勿剪辑，确保讲述视频、静默、手势，在同一个视频中一起导出。

采集指南及录制台本

附录一：拍摄检查项
附录二：动作编排定制采集指南
附录三：台本范例

相机架设&拍摄规格

注意要点：

建议选用与40mm-85mm焦距等效镜头，避免使用超广角。
在合适的高度，将相机竖置固定于三脚架上，确保水平。相机与人物眼神平齐，对焦于面部区域（参考图1），确保面部清晰不失焦。若录制全身，请确保模特脚底有绿幕空隙。
图1 相机机位参考图
建议使用相机竖拍。模特处于相机拍摄画框中间，与画框保持边距，确保模特做手势时不会越出画面。参见图2。
图2 拍摄示例
避免拍摄人物出现过曝、欠曝。
模特建议距离绿幕背景1.5米以上，避免出现阴影。

推荐的相机拍摄规格清单，如表1所示。

表1 相机拍摄规格
拍摄规格	标准
分辨率和帧率	4K/25fps及以上
光圈	小于F4，避免景深过浅出现明显虚化
ISO	100~800，避免ISO过高出现噪点
白平衡	3500~5500K，全程固定白平衡。
录制格式	H.264/H.265编码
码率	大于60M
颜色位深	10bit或8bit
快门速度	至少小于等于“1/（帧率 * 4）”。如帧率60，则快门速度小于1/240。

FAQ：

如果我的设备不能拍摄4K视频，只支持1080P怎么办？
若设备不支持，可尝试使用1080P（1080*1920）半身拍摄，以确保人脸区域的细节捕获。
我没有相机，能否使用手机拍摄？
目前我们不建议使用手机拍摄。若实在需要，请将手机录制规格调整为4K/30fps或者4K/60fps，并使用稳定器保证画面稳定。其他拍摄要求如光线、绿幕等和相机架设&拍摄规格保持一致。

灯光布置

合适的灯光环境将大幅提升模特的拍摄效果，我们建议：

使用3~4台专业摄影灯进行打光，包括：主光、辅助光、产品光（若需要拍摄桌面产品）、背景光、轮廓光（可选），具体布光方式参考图3。
图3 布置灯光
录制保证过程中保证光线不发生显著变化。
确保背景上的绿幕均匀明亮，避免阴影或明暗不均的情况。同时确保演员或物体与绿幕背景之间没有阴影或反光。

FAQ：

如果我没有这么多灯光设备，怎么办？
无需过于担心，只要保证人物被均匀、稳定地照亮，并且能清晰地和背景形成区分即可。注意要保证脸部和身体没有出现明显的阴影。在灯光设备有限的情况下，优先打亮被拍摄主体，之后再去对绿幕进行补光。

收音

我们会使用视频中的语音和您口型变化的对应关系来训练口型驱动效果，训练结果还会经过专家的技术审核。

因此在收音这方面，我们建议：

保证视频音画同步。
确保环境安静无噪声，模特人声清晰，无其他人声干扰，尽量减少视频的底噪。
建议使用小蜜蜂或者其他专业麦克风搭配相机进行拍摄，这将大幅减少视频的底噪和其他环境噪声。但是注意：请尽量隐藏麦克风不被拍摄到，否则会导致数字人的形象中也包含麦克风。

FAQ：

如果我拍摄过程中有人闯入或有突发的声音，如雷声、汽车喇叭声等，我是否要重新拍摄？
根据我们的经验，小于3秒的短暂声音闯入不会对最终训练效果有明显的影响。您只需保证类似的突发声音越少越好。
我可能没有专业麦克风或者小蜜蜂设备，能否直接使用相机内置麦克风录制？
大部分相机内置麦克风的录制效果也能满足我们对声音的要求。我们对声音的清晰度可以有适度的妥协，但请务必保证底噪不能太大，且不能有其他人声出现，尤其是被拍摄模特正在说话的时候。

模特形象

分身数字人不支持替换衣服，因此，您在录制时的着装会决定您的数字人穿着。

在拍摄前，我们建议参照如下条目，对您的形象进行检查。

着装要求
- 避免任何会和背景融为一体的衣服颜色。如绿幕背景下，不能穿绿色的衣服或者含有任何绿色图案的衣服。
- 避免半透明、透光、反光的材质，避免穿带人脸图案的衣服，避免过多褶皱。
- 避免穿着密集条纹、密集方格、密集斑点等衣服，可能会导致相机成像时有摩尔纹。
- 避免穿戴反光、绿色成分的手表、耳钉等佩饰。不能佩戴项链或者颈链。
  图4 着装要求
面部要求
- 保持干净整洁的妆面造型，淡妆出镜，避免脸部过油导致反光。
- 不佩戴眼镜、墨镜或者帽子，需要露出额头与眉毛。
- 确保面部无零散发丝，保证无法通过头发空隙看到背景。
- 确保面部没有较长零散的胡须。
  图5 错误示例
  
  图6 正确示例

绿幕数字人拍摄要求

模特拍摄时的手部动作、面部表情以及各方面姿态，都会决定数字人最终呈现时的姿态和动作。因此，我们希望模特在拍摄时尽可能保持自然，按照平时说话和表达的习惯进行录制。

为了保证数字人训练的效果，请按照我们提供的流程进行录制，请根据实际需求评估录制流程：

不需要交互：15~20秒静默 + 4~5分钟自然表达
需要交互：15~20秒静默 + 无语义动作 + 4~5分钟自然表达，详见交互数字人拍摄要求。
需要动作编排：15~20秒静默 + 4~5分钟自然表达 + 单独拍摄动作编排片段（保持机位和人物位置不动，详细要求见附录二：动作编排定制采集指南）

详细录制说明，如下所示：

静默期：录制静默的初始人物状态，时长约15-20秒
模特正视镜头，面带微笑，嘴巴闭合，保持静默。手部可根据习惯自然放于初始位置，如下图所示。

保持合适的人物比例。

图7 静默期
自然表达期：录制自然说话时的嘴型、动作、状态、神情等，时长约4分30秒。
- 按照语料逐段演讲，保持自然语速和小幅度动作，头部可自然摆动。
  图8 画面演示
- 停顿时保证完全合上嘴唇，手部恢复至初始位置（建议在拍摄前简单练习）
  图9 错误示例
  
  图10 正反示例

录制注意事项：

演讲失误可直接略过或从错误位置开始继续演讲，不打断拍摄。
避免头部大幅度的转动或者摆动，摆动幅度不超过15度。
避免含义明确的动作，比如竖大拇指、比数字等。
避免可能会遮挡脸部的动作，如托腮、挠头等。
避免动作幅度过大超出画面，或动作高于下巴挡住面部。
避免视线离开镜头。
避免错误的发音，语速切忌过快过慢、忽快忽慢。

交互数字人拍摄要求

录制要求
- 身体保持静止：一次性录完所有动作，拍摄期间被摄者保持同一位置，不前后晃动，不左右摆动。拍摄开始时先保持静默动作10秒以上。
- 动作间隔保持5s自然静默动作：动作间隔保持5秒的自然静默，动作个数为4个。做动作时，边说话边自然展现动作，静默时不说话，保持自然的静默状态。
请参考图例，按录制人自身动作习惯，保证动作、表情自然。

录制范例

做动作时可以选择静默或者同步读相关文本。根据我们的经验，边说边做会使动作更加自然，文本内容参考如下所示。

表2 录制范例
步骤	1	2	3
文本和动作（动作由“<>”标注，与同一行的文字一起，边说边做）	<静默10秒，保持静默动作>	欢迎来到数字人大讲坛，下面我们来了解一下数字人的主要应用场景，以及相关的前沿技术。	5，4，3，2，1。<静默位置，闭嘴默数> 正如前面所说的内容 <双手部分展开后回到静默动作>
图例

表3 录制范例
步骤	4	5	6
文本和动作（动作由“<>”标注，与同一行的文字一起，边说边做）	5，4，3，2，1。<静默位置，闭嘴默数> 接下来我们介绍商品A <左手从胸前划过后回到静默动作>	5，4，3，2，1。<静默位置，闭嘴默数> 接下来我们继续介绍商品B <右手从胸前划过后回到静默动作>	5，4，3，2，1。<静默位置，闭嘴默数> 今日的交互动作录制已结束。 <垂手自然放松后回到静默动作>
图例

接下来继续拍摄4~5分钟的自然表达。

走动数字人拍摄要求

若需要录制走动的数字人形象，在上述基础上，新增如下要求：

走动时脸部必须全程朝向相机，眼睛注视镜头，镜头全程保持不动。
朝单方向走动的距离不超过3步。
图11 拍摄示例

实景数字人拍摄要求

若需要录制实景数字人形象，请尽量保证背景维持静态，没有规律性或大幅画面的背景变化。

实景数字人因不需要抠图，可以放宽对着装的要求，支持穿绿色或透明的衣服。

视频提交

视频提交的详细说明，如表4所示。

表4 视频提交说明
视频要求项	说明
交付内容	拍摄完成后请提交一个视频素材。推荐视频格式为MP4。视频大小通常小于5G。提交训练的视频需要保留录制时的原声。若对素材进行后处理，导出时请确保帧率与原视频保持一致。
时长	视频时长通常为5~6分钟。请勿剪辑视频长度，确保讲述视频、静默、手势，一起导出至同一个视频中。
美颜	如需对视频进行美颜等处理，确认美颜效果后，检查素材，确保不存在变形、模糊、晃动等情况，可提交训练视频。
裁剪	在指定时长内，包含主播身体的所有部分都要入镜，并剪切掉人像周围其他不必要元素，如绿幕边缘、拍摄设备等。
命名	命名规范：公司名 + _ + 模特名称 + _ + 拍摄时间（YYYYMMDD）。示例：华为云_云玲_20230925.mp4

附录一：拍摄检查项

拍摄完成后，可逐行检查拍摄的视频是否满足标准。

表5 检查项
检查项	是否满足
模特未说话时嘴巴保持闭合
绿幕上没有明显阴影
演员脸部和头部未出现碎发或零散发丝
演员全程未挪动位置
演员眼睛未明显观看提词器
视频长度大于等于5分钟
演员未穿着绿色或带有绿色图案的衣服
演员未穿戴反光的金属耳饰、手链、手表
演员未穿带半透明、透光、反光材质的衣服
演员未佩戴眼镜、墨镜、帽子
演员做手势时未超出画面
演员已将麦克风隐藏，无法直接看到
视频中未包含含义明确的动作，比如竖大拇指、比数字等
演员动作幅度适当，未遮挡面部

附录二：动作编排定制采集指南

因动作编排算法的复杂性，我们会有更高的拍摄要求。在原有录制要求的基础上，新增以下要求：

保持位置不变：采集完5分钟自然表达视频后，采集动作编排视频时，需保持相机和模特位置不变。
身体保持静止：10秒以上。
回到初始位置：每做完一个动作回到初始位置，保证手部一致，包括左右手重合的顺序（例如始终保持左手在右手上面）、手指的形状等等，等待3~4秒后，开始下一个动作。
边说边做：为保证制作后的数字人表情自然，做动作时需要一边说话一边做，保持自然表情。

详细说明，如下所示：

参考动作：
数字类：1，2，3

常用动作：打招呼、拜拜/ok 、点赞、左右摊手、左右上抬、握拳打气等。

基础动作：向左/右展开、向两边同时小幅展开、向两边同时大幅展开、手指往左上方/右上方指一下、单手往前摊开。

其他动作：可以录制您需要的任何动作，数量不限，只要保证动作前和动作后的初始位置是一致的即可。

请注意，动作编排的效果大幅度取决于录制时每个动作之间手部和身体初始位置的一致性，若录制效果不佳，则无法进行动作编排。请严格遵守录制要求进行录制，我们推荐一个动作可以重复录制2-3遍，来降低容错率。

参考动作例图：


初始位置	左手指向左边	右手指向左边

挥手打招呼	双手向前方摊开	数字手势

动作编排台本范例：

做动作时可以选择静默或者同步读相关文本，根据我们的经验，边说边做会使动作更加自然，文本内容不限。

以下是参考流程和文本：

接下来开始动作编排的原子动作录制 <讲话但不做动作>
5,4,3,2,1。<静默位置，闭嘴默数> 请比个数字1的手势 <任意一只手做数字1的动作后回到静默动作>
5,4,3,2,1。<静默位置，闭嘴默数> 请比个数字2的手势 <任意一只手做数字2的动作后回到静默动作>
5,4,3,2,1。<静默位置，闭嘴默数> 请比个数字3的手势 <任意一只手做数字3的动作后回到静默动作>
5,4,3,2,1。<静默位置，闭嘴默数> 请做个打招呼或者拜拜的手势 <任意一只手做打招呼动作后回到静默动作> 以此类推，可以做各类指向性动作，只要保证每个动作之间手部能回到初始位置且等待4-5秒即可。