拍摄真人视频
概览
如需使用华为云MetaStudio服务定制分身数字人形象,需要参考本章节,完成分身数字人形象的采集工作。
请注意,分身数字人形象的制作效果与拍摄录制的内容效果有较大关联,为了后续能够体验到更好的数字人应用效果,我们建议您详细阅读每一节内容,并严格按照每节内容描述的标准进行拍摄。
表1是数字人拍摄视频标准概览内容,详细说明请参考本章节后面的描述。
拍摄准备项 |
拍摄准备子项 |
拍摄标准说明 |
---|---|---|
拍摄规格 |
- |
视频总时长为5分钟,分辨率和帧率为4K、25fps或以上,格式为MP4或MOV。 |
场地布置 |
背景 |
使用颜色均匀、无破损、无褶皱的绿幕背景。 |
灯光 |
使用均匀、稳定的光照,标准日光色色温。 保证拍摄者光线充足,面部无阴影。 录制过程中光线确保不发生显著变化。 |
|
机位 |
相机与人物眼神平齐,且需要对焦模特面部区域,确保面部清晰不失焦。建议竖拍,效果更佳。 |
|
收音 |
保证环境安静、无噪声、无回声,并避免其他人声的干扰。 |
|
模特 |
面部 |
避免面部过油导致反光。 确保面部无零散发丝。 尽量不佩戴眼镜,以免反光。 保证模特轮廓清晰,精神饱满。 |
着装 |
避免穿着与绿幕颜色相近的服饰,避免衣服上带绿色图案。 不佩戴可能反光的金属耳饰、手链和手表。 |
|
体态动作 |
面带微笑。头部自然摆动,动作自然,避免幅度过大。做完动作后,手部需返回至初始位置。未说话时,请保持嘴巴闭合状态。 |
|
录制台本 |
- |
提前准备中文或英文台本,并建议使用提词器,以确保阅读流畅。阅读中如果出现错误,不影响最终效果,无需停止录制。条件允许情况下,建议使用录制者自己熟悉的台本。 |
视频提交 |
- |
训练视频需保留原声,且音画必须同步。 视频请勿剪辑,并确保视频中的讲述、静默状态、手势,会一并导出至一个视频中。 |
拍摄规格
推荐的相机拍摄规格清单,如表2所示。
相机拍摄常见问题
- 我的设备不支持拍摄4K视频,只支持拍摄1080P怎么办?
若设备不支持拍摄4K视频,可尝试使用1080P(1080*1920)进行半身拍摄,并确保可以充分捕获人脸区域的细节。
- 我没有相机,可以用手机拍摄吗?
不建议使用手机拍摄。若实在需要,请将手机录制规格调整为4K、30fps或4K、60fps,并使用稳定器保证画面稳定。其他拍摄要求如光线、绿幕等,需要和相机架设保持一致。
灯光布置
合适的灯光环境将大幅提升模特拍摄效果,所以我们提出如下建议:
- 使用3~4台专业的摄影灯来打光,包括:主光、辅助光、产品光(用于拍摄桌面产品)、背景光和(可选)轮廓光,具体布光方式如图4所示。
- 录制过程中,需要保证光线不发生显著变化。
- 确保背景绿幕均匀且明亮,避免有阴影或明暗不均。
- 确保演员或物体与绿幕背景之间没有阴影或反光。
灯光布置常见问题
如果现场没有那么多灯光设备,该怎么办?
无需担心,只要确保人物能够被均匀稳定地照亮,且能够与绿幕背景清晰地区分开即可。注意脸部和身体不能出现明显的阴影。
在灯光设备有限的条件下,优先打亮被拍摄主体,之后再对绿幕补光。
收音
MetaStudio会使用视频中的语音,对应您口型的变化,来训练口型驱动效果,训练结果还会经过专家的技术审核。
所以在收音这方面,建议如下:
- 保证视频音画同步。
- 确保环境安静无噪声,模特人声清晰,无其他人声干扰,尽量减少视频底噪。
建议使用小蜜蜂或其他专业麦克风搭配相机进行拍摄,会大幅降低视频底噪和其他环境噪声。但请注意:尽量隐藏麦克风不被拍摄到,否则生成的数字人形象会一直包含麦克风。
收音常见问题
- 如果我拍摄过程中有人闯入或出现突发声音,如雷声、汽车喇叭声等,要重新拍摄吗?
根据以往的录制经验,小于3秒的短暂闯入声音不会对最终训练效果产生明显影响。您只需保证类似的突发声音越少越好。
- 我可能没有小蜜蜂或其他专业麦克风设备,能否直接使用相机内置麦克风录制?
大部分相机内置麦克风的声音录制效果也能满足要求。MetaStudio对声音清晰度可以有适度妥协,但请务必保证底噪不能太大,且不能有其他人声出现,尤其是被拍摄模特正在说话时。
模特形象
分身数字人不支持替换衣服,所以录制时的着装会决定生成的数字人着装。
在拍摄前,建议参照如下内容对模特形象进行检查。
检查项 |
要求说明 |
---|---|
模特着装 |
|
模特面部 |
|
模特表现
拍摄过程中模特的手部动作、面部表情及各方面的状态,都会决定数字人最终呈现时的姿态和动作。因此,我们希望模特在拍摄时尽可能保持自然,按照平时说话和表达的习惯进行录制。
为保证数字人的训练效果,请按照我们提供的流程进行录制,请根据实际需求评估录制流程:
- 不需要交互:15-30秒静默 + 4-5分钟演讲。
- 需要交互:15秒静默 + 无语义动作 + 4-5分钟演讲。
- 需要动作编排和交互:15秒静默 + 无语义动作 + 有语义动作 + 4-5分钟演讲。
详细录制说明,如下所示:
- 静默期:录制人物的初始静默状态,时长约15-20秒。
模特正视镜头,面带微笑,嘴巴闭合,保持静默。手部可根据习惯自然放于初始位置。
- 录制动作期:录制原子动作,时长约40秒(不需要智能交互功能可跳过此步)。
按照指导边讲边动作,整体动作保持自然,动作间隔期静默时身体可微微放松,自然眨眼。
- 自然表达期:录制自然说话时的嘴型、动作、状态、神情等,时长约4分30秒。
- 按照语料逐段演讲,保持自然语速和小幅度动作,头部可自然摆动。
- 停顿时必须完全闭合嘴唇,手部恢复至初始位置(建议拍摄前简单练习)。
录制注意事项
- 如果演讲失误,可直接略过或从错误位置开始继续演讲,无需打断拍摄。
- 避免头部大幅度的转动或摆动,动作幅度不超过15度。
- 避免含义明确的动作,如:竖大拇指、比数字等。
- 避免可能会遮挡脸部的动作,如:托腮、挠头等。
- 避免动作幅度过大超出拍摄画面,或动作高于下巴挡住面部。
- 避免视线离开镜头。
- 避免错误发音,切忌语速过快过慢或忽快忽慢。
走动数字人拍摄要求
若需要录制走动数字人的形象,在上述基础上,还需新增下述要求:
- 走动时脸部必须全程朝向相机,且眼睛注视镜头。
- 朝单方向走动的距离不超过3步。
实景数字人拍摄要求
若需要录制实景数字人形象,请尽量保证维持静态背景,没有规律性或大幅画面的背景变化。
实景数字人因不需要抠图,可以放宽对着装的要求,支持穿绿色或透明的衣服。
视频提交
提交视频的详细说明,如表4所示。
视频要求 |
说明 |
---|---|
交付内容 |
拍摄完成后请提供一个视频素材用于数字人训练。
|
时长 |
视频时长通常为5~6分钟。请勿剪辑视频长度,确保讲述视频、静默、手势,一并导出至同一个视频中。 |
美颜 |
如需对视频进行美颜等处理,需在美颜完成后,确认视频画质不存在变形、模糊或晃动等情况,再提交训练视频。 |
裁剪 |
在指定时长内,需要确保主播全身入镜,并剪切掉人像周围的不必要元素,如绿幕边缘、拍摄设备等。 |
命名 |
命名规范:公司名 + _ + 模特名称 + _ + 拍摄时间(YYYYMMDD)。 示例:华为云_云玲_20230925.mp4 |