文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 使用数据工程构建数据集/ 加工数据集/ 管理加工算子/ 系统预置加工算子介绍/ 视频类加工算子介绍

更新时间：2025-12-27 GMT+08:00

查看PDF

视频类加工算子介绍

平台支持视频类数据集的加工操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

表1 视频类加工算子能力清单
算子分类	算子名称	算子描述
数据提取	视频时长切分	将源视频切分成固定时长的小视频，固定时长可配置，范围为1-5分钟。
数据提取	镜头拆分	根据视频中的镜头场景变化将长视频拆分为短视频片段，如果某个镜头片段的长度超过设定的时间阈值，该镜头片段将按时长进行进一步拆分。
数据转换	视频裁剪	视频裁剪是裁剪掉视频中不必要的元素，比如字幕、Logo、水印、边框和密集文字，同时过滤掉那些裁剪后面积比例超出预设阈值的视频文件；使用前需要先执行字幕、logo、水印、边框、密集文字识别算子。
数据过滤	数据过滤	根据条件对数据进行过滤。
	视频元数据过滤	根据视频元数据（帧率、分辨率和视频时长）进行过滤，仅保留符合选定条件的视频。注：电影标准帧率为24或30FPS。
	视频宽高比过滤	根据视频的宽高比进行过滤。宽高比是指视频图像的宽度和高度之间的比率。
数据打标	色情视频检测	给色情视频内容打标签
	暴恐视频检测	给暴恐视频内容打标签
	视频涉政检测	给涉政视频内容打标签
	运动幅度评分	通过计算每个像素在每一帧中的移动范围进行评分，识别运动幅度过快（如＞100光流）或过慢（如≤2光流）的视频，数值越大表示运动越快。
	视频质量评分	对视频的基础质量（清晰度、亮度、模糊、画面抖动重影、低光过曝、花屏等）进行评分。分值范围(0, 1)，数值越高质量越好，评分>0.05可认为是视频基础质量较高的视频。
	美学评分	从内容（吸引人，清晰度）、构图（目标物位置良好）、颜色（有活力，令人愉悦）、光线（光线明显有对比度）、轨迹（连续、稳定）等维度评价视频美感得分。分值范围(0, 1)，数值越高美感越好，评分>0.95可视为视频基础质量较高的视频。
	水印识别	识别视频中是否包含水印。
	字幕识别	识别视频中是否包含字幕。
	Logo识别	识别视频中是否包含Logo。
	视频黑边识别	识别视频中是否包含黑边。
	密集文字识别	识别视频中是否包含密集文字，超出密集文字面积占比阈值的视频可视为密集文字视频，一般默认裁剪面积占比≥7%为密集文字视频。
	视频分类	通过算子返回视频的标签分类，L1存在10类，L2级别检测39类，L3级别检测93类，L4存在2219类。
	视频摘要生成（简略）	通过对视频进行抽帧，通过模型推理生成简短的视频摘要描述。
	视频摘要生成（详细）	通过对视频进行抽帧，通过模型推理生成详细的视频英文摘要描述。
	视频中文摘要生成（详细）	通过对视频进行抽帧，通过模型推理生成详细的视频中文摘要描述。
	镜头运动描述	模型通过对视频进行抽帧进行光流计算与推理，输出视频的镜头类型。
	姿态检测	通过对视频抽8帧，模型分别对图片进行标记关键点，输出任务bbox框和关键点坐标，通过对坐标的计算判断视频中是否存在人物。

数据过滤

适用的文件格式：“视频>mp4 / avi”。
各参数说明：
过滤参数：通过获取视频数据集标签作为过滤条件。
算子功能描述：同时满足所有过滤条件的视频会被过滤掉。
使用说明：对于没有标签的纯视频数据，可以通过数据打标算子生成视频标签后，再使用生成的标签作为过滤条件过滤。
参数配置样例：

视频时长切分

适用的文件格式：“视频>mp4 / avi”。
各参数说明：
视频切分时长：配置该参数可以确定切分后的视频时长，范围是1-5分钟。若源视频时长不满足需要切分的条件，则保留源视频。
算子功能描述：将源视频切分成固定时长的小视频，固定时长可配置，范围为1-5分钟。先进行视频切分将视频长度减小再使用镜头切分会提高算子效率。
使用场景：
- 可处理情况
  - 视频时长大于1min
- 暂无法解决情况
  - 视频时长小于1min
参数配置样例：
视频切分后时长对比
- 视频切分前：
- 视频切分后：

镜头拆分

适用的文件格式：“视频>mp4 / avi”。
各参数说明：
需要拆分的视频：筛选出分辨率、时长、帧率同时满足筛选标准的视频进行镜头拆分。

视频拆分后规格：单视频切片最大时长支持自定义；若首轮拆分切片时长超过设定值，则会进一步做拆分，最终拆分结果均小于等于设定阈值。
使用场景：
- 可处理情况
  - 有显著场景变换，包含直接切换或者淡入淡出
- 暂无法解决情况
  - 同一场景拍摄内容跳变但内容相似度高
参数配置样例：

拆分样例：设置单视频切片最大时长3秒：
镜头拆分前后对比：
- 拆分前：
- 拆分后：

视频裁剪

适用的文件格式：“视频>mp4 / avi”。
各参数说明：
裁剪项：自定义选择裁剪项，裁剪掉视频中字幕/Logo/水印/边框/密集文字等无用信息。

最大裁剪比例：裁剪视频面积/原始视频面积的值即裁剪面积占比，设置默认的裁剪比例，默认值为0.3。

过裁剪保留：裁剪占比大于最大裁剪比例时，是否保留原视频。是则保留，否则过滤。
使用场景：
- 可处理情况
  - 需要先执行字幕、logo、水印、边框、密集文字识别算子。
- 暂无法解决情况
  - 未先执行字幕、logo、水印、边框、密集文字识别算子。
  - 裁剪后无法保留留存过小或者比例失衡的视频。
参数配置样例：
裁剪样例：
裁剪前：带水印视频。

裁剪后：上部带水印部分被裁剪，视频高度变低。

视频元数据过滤

适用的文件格式：“视频>mp4 / avi”。
各参数说明：
待保留分辨率：自定义选择保留分辨率。不满足所选分辨率的视频将被过滤掉。

待保留时长：默认值为3，小于“待保留时长”的视频将被过滤掉。

待保留帧率：电影标准帧率为24或30FPS，小于“待保留帧率”的视频将被过滤掉。
参数配置样例：
过滤样例：设置待保留时长大于等于10S：

过滤前：两个视频，一个时长是4S，一个时长是16S。

过滤后：只保留时长为16S的视频：

视频宽高比过滤

适用的文件格式：“视频>mp4 / avi”。
各参数说明：
待过滤宽高比阈值：超出“宽高比阈值”的视频将被过滤掉。阈值范围为(1, 10)，可输入小数点后一位。
参数配置样例：
过滤样例：
原视频数据集：

共有两个视频，第一个宽高比为1.77，第二个宽高比为1.79

设置宽高比阈值为1.78，经算子处理过后，仅保留宽高比为1.79的视频。

色情视频检测

适用的文件格式：“视频>mp4 / avi”。
算子说明：给色情视频内容打标签。
参数配置样例：
不需要配置参数。
检测样例：
检测结果以video_anti_porn对象存储在标注文件中：

suggestion:对文件检测是否通过的结果，pass代表审核通过无相应的问题；review代表需要人工复核，您可以按照您的审核策略选择放通还是拦截；block代表待审文件存在问题。

confidence:模型结果检测的置信度（注意这里的置信度代表模型给出建议的置信度）。如果suggestion为pass，则为零；如果suggestion为review/block，则为0-1。

label:模型检测出的具体色情标签，如果未检测出则为空。

暴恐视频检测

适用的文件格式：“视频>mp4 / avi”。
算子说明：给暴恐视频内容打标签。
参数配置样例：
不需要配置参数。
检测样例：检测结果以video_anti_terrorism对象存储在标注文件中：
suggestion:对文件检测是否通过的结果，pass代表审核通过无相应的问题；review代表需要人工复核，您可以按照您的审核策略选择放通还是拦截；block代表待审文件存在问题。

confidence:模型结果检测的置信度（注意这里的置信度代表模型给出建议的置信度）。如果suggestion为pass，则为零；如果suggestion为review/block，则为0-1。

label:模型检测出的具体暴恐标签，如果未检测出则为空。

视频涉政检测

适用的文件格式：“视频>mp4 / avi”。
算子说明：
给涉政视频内容打标签。
参数配置样例：
不需要配置参数。

检测样例：
检测结果以video_anti_politics对象存储在标注文件中：

suggestion:对文件检测是否通过的结果，pass代表审核通过无相应的问题；review代表需要人工复核，您可以按照您的审核策略选择放通还是拦截；block代表待审文件存在问题。

result:模型对文件检测的具体返回内容，包含suggestion、confidence、label三个子标签；可以一条或多条。

confidence:模型结果检测的置信度（注意这里的置信度代表模型给出建议的置信度）。如果suggestion为pass，则为零；如果suggestion为review/block，则为0-1。

label:模型检测出的具体涉政标签，如果未检测出则为空。

运动幅度评分

适用的文件格式：“视频>mp4 / avi”。
评分说明：
识别运动幅度过快或过慢的视频，数值越大表示运动越快。运动幅度＞100光流可视为运动过快，运动幅度≤2光流可视为运动过慢。
使用场景：
- 可处理情况
  - 画面运动幅度过大或过小，以及静止的画面可以识别。
- 暂无法解决情况
  - 无法对快速/慢速占比小的部分进行识别。
参数配置样例：

评分样例：jsonl文件中显示运动幅度评分：

视频质量评分

适用的文件格式：“视频>mp4 / avi”。
评分说明：
对视频的基础质量（清晰度、亮度、模糊、画面抖动重影、低光过曝、花屏等）进行评分。分值范围(0, 1)，数值越高质量越好，评分>0.05可认为是视频基础质量较高的视频。
使用场景：
- 可处理情况
  - 对基础质量低的视频进行过滤。
- 暂无法解决情况
  - 无法对快速/慢速占比小的部分进行识别。
参数配置样例：

评分样例：jsonl文件中显示质量评分：clip_quality_value：质量分。

美学评分

适用的文件格式：“视频>mp4 / avi”。
评分说明：
从内容（吸引人，清晰度）、构图（目标物位置良好）、颜色（有活力，令人愉悦）、光线（光线明显有对比度）、轨迹（连续、稳定）等维度评价视频美感得分。分值范围(0, 1)，数值越高美感越好，评分>0.95可视为视频美感较高的视频。
使用场景：
- 可处理情况
  - 美学问题或质量比较明显的视频识别效果较好。
- 暂无法解决情况
  - 无法处理像素游戏这种类型的视频。
  - 对水印不敏感。
参数配置样例：

评分样例：jsonl文件中显示美学评分：clip_esthetics_value：美学分

水印识别

适用的文件格式：“视频>mp4 / avi”。
算子说明：
识别视频中是否包含水印。
参数配置样例：
水印识别阈值：当水印识别可信度高于水印识别阈值时即判断存在水印，默认水印识别阈值为0.5。
参数配置样例：

识别样例：jsonl文件中显示是否识别水印：consist_watermark值为1表示识别到水印，值为0表示未识别到水印。

字幕识别

适用的文件格式：“视频>mp4 / avi”。
算子说明：
识别视频中是否包含字幕。
参数配置样例：

识别样例：jsonl文件中显示是否识别字幕：consist_subtitle值为1表示识别到字幕，值为0表示未识别到字幕。

Logo识别

适用的文件格式：“视频>mp4 / avi”。
算子说明：
识别视频中是否包含Logo。
参数配置样例：

识别样例：jsonl文件中显示是否识别logo：consist_logo值为1表示识别到Logo，值为0表示未识别到Logo。

视频黑边识别

适用的文件格式：“视频>mp4 / avi”。
算子说明：
识别视频中是否包含黑边。
使用场景：
- 可处理情况
  - 只能处理视频的四个边，并且黑边的色差波动不大。
- 暂无法解决情况
  - 无法处理不在四边，并且黑边内有其他字幕等色差变化的视频。
参数配置样例：
识别样例：border_value为1表示识别出黑边，值为0表示未识别出黑边

密集文字识别

适用的文件格式：“视频>mp4 / avi”。
参数说明：
密集文字面积占比：超出密集文字面积占比阈值的视频可视为密集文字视频，一般密集文字面积占比阈值为1%。

置信度：当识别置信度超过设定阈值时，即可认定为包含密集文字的视频内容。默认情况下，识别置信度阈值设为 0.5。
参数配置样例：

识别样例：jsonl文件中显示是否识别密集文字：consist_densetext值为1表示识别到密集文字，值为0表示未识别到密集文字。

视频分类

适用的文件格式：“视频>mp4 / avi”。
算子说明：
自动对短视频内容进行分类，并生成相应的标签。
使用场景：
- 可处理情况
  - 预设的类别可以进行分类。
- 暂无法解决情况
  - 分类精度未作验证，只用来均匀采样。
  - 不支持非预设类别分类
参数配置样例：
无需配置参数。

分类标注样例：
描述信息中显示视频的各级分类：

category_L1_cn：一级分类。

category_L2_cn：二级分类。

category_L3_cn：三级分类。

category_L4_cn：四级分类。

视频摘要生成（详细）

适用的文件格式：“视频>mp4 / avi”。
算子说明：
通过对视频进行抽帧，通过模型推理生成详细的视频摘要描述。
使用场景：
- 可处理情况
  - 所有视频都可以进行描述。
- 暂无法解决情况
  - 无法指定描述方式。
  - 非常详细的内容，如数量、动作细节等无法精确描述。
  - 只能对视频的观感信息（场景、外观、行为）进行描述，无法理解视频深度内容（如新闻理解、内容解读、知名人物识别等），无法处理音频。
参数配置样例：
无需参数配置。

打标样例：描述信息中long_prompt字段代表详细的视频摘要。

视频中文摘要生成（详细）

适用的文件格式：“视频>mp4 / avi”。
算子说明：
通过对视频进行抽帧，通过模型推理生成详细的视频中文摘要描述。
使用场景：
- 可处理情况
  - 所有视频都可以进行描述。
- 暂无法解决情况
  - 无法指定描述方式。
  - 非常详细的内容，如数量、动作细节等无法精确描述。
  - 只能对视频的观感信息（场景、外观、行为）进行描述，无法理解视频深度内容（如新闻理解、内容解读、知名人物识别等），无法处理音频。
参数配置样例：
无需参数配置。

打标样例：描述信息中long_prompt_cn字段代表详细的视频摘要。

视频摘要生成（简略）

适用的文件格式：“视频>mp4 / avi”。
算子说明：
通过对视频进行抽帧，通过模型推理生成简略的视频摘要描述。
使用场景：
- 可处理情况
  - 所有视频都可以进行简短描述。
- 暂无法解决情况
  - 无法指定描述方式。
  - 只能对视频的观感信息（场景、外观、行为）进行描述，无法理解视频深度内容（如新闻理解、内容解读、知名人物识别等），无法处理音频。
参数配置样例：
无需参数配置。

打标样例：描述信息中prompt字段代表简略的视频摘要。
图1 打标样例

姿态检测

适用的文件格式：“视频>mp4 / avi”。
算子说明：
姿态检测算子从视频中抽取8帧图片，对每帧图片进行关键点打标与置信度计算，并计算符合过滤条件的图片数量，达到一定数量则表示视频中存在对应的人物数量。
使用场景：
- 可处理情况
  - 可处理有人物脸部露出的视频。
- 暂无法解决情况
  - 人物被部分遮挡会导致识别失败。
参数配置样例：
无需参数配置。

打标样例：
yolo_pose_select_single: 是否检测到了单个人的姿势，存在为1，否则为0。

yolo_pose_select_few: 是否检测到了少量人（通常为2-4）的姿势，存在为1，否则为0。

yolo_pose_select_multi: 是否检测到了多人（通常是4人或更多）的姿势，存在为1，否则为0。

yolo_pose_select_half : 是否检测到了半个人的姿势，存在为1，否则为0。

镜头运动描述

适用的文件格式：“视频>mp4 / avi”。
算子说明：
模型通过对视频进行抽帧进行光流计算与推理，输出视频的镜头类型。
使用场景：
- 可处理情况
  - 视频中运镜明确且不混乱。
- 暂无法解决情况
  - 多种运镜组合或不明显会导致无法准确识别，只能识别预设的类别。
参数配置样例：
无需参数配置。

打标样例：
motion: 运镜的类型。

标签范围为： { 0: 'static', 1: 'others', 2: 'pull out', 3: 'push in', 4: 'static' , 5: 'tracking', 6: 'orbit', 7: 'spin', 8: 'tilt up', 9: 'tilt down', 10: 'pan right', 11: 'pan left' ,12: 'tracking' }。

父主题： 系统预置加工算子介绍

上一篇：文本类加工算子介绍

下一篇：图片类加工算子介绍

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问