更新时间:2025-07-02 GMT+08:00

视频类加工算子介绍

数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。

平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1

表1 视频类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

镜头拆分

根据视频中的镜头场景变化将长视频拆分为短视频片段,如果某个镜头片段的长度超过设定的时间阈值,该镜头片段将按时长进行进一步拆分。

数据转换

添加水印

为视频添加全屏文字水印。

视频裁剪

视频裁剪是裁剪掉视频中不必要的元素,比如字幕、Logo、水印、边框和密集文字,同时过滤掉那些裁剪后面积比例超出预设阈值的视频文件;使用前需要先执行字幕、logo、水印、边框、密集文字识别算子。

数据过滤

视频元数据过滤

根据视频元数据(帧率、分辨率和视频时长)进行过滤,仅保留符合选定条件的视频。注:电影标准帧率为24或30FPS。

视频宽高比过滤

根据视频的宽高比进行过滤。宽高比是指视频图像的宽度和高度之间的比率。

数据打标

色情视频检测算子

给色情视频内容打标签

暴恐视频检测算子

给暴恐视频内容打标签

视频涉政评分算子

给涉政视频内容打标签

运动幅度评分

通过计算每个像素在每一帧中的移动范围进行评分,识别运动幅度过快(如>100光流)或过慢(如≤2光流)的视频,数值越大表示运动越快。

质量评分

对视频的基础质量(清晰度、亮度、模糊、画面抖动重影、低光过曝、花屏等)进行评分。分值范围(0, 1),数值越高质量越好,评分>0.05可认为是视频基础质量较高的视频。

美学评分

从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频基础质量较高的视频。

水印识别

识别视频中是否包含水印。

字幕识别

识别视频中是否包含字幕。

Logo识别

识别视频中是否包含Logo。

视频黑边识别

识别视频中是否包含黑边。

密集文字识别

识别视频中是否包含密集文字,超出密集文字面积占比阈值的视频可视为密集文字视频,一般默认裁剪面积占比≥7%为密集文字视频。

视频分类(InterVideo2)

通过算子返回视频的标签分类,L1存在7类,L4存在700类。

视频摘要生成(简略)

通过对视频进行抽帧,通过模型推理生成简短的视频摘要描述。

视频摘要生成(详细)

通过对视频进行抽帧,通过模型推理生成详细的视频摘要描述。

镜头拆分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    需要拆分的视频:筛选出分辨率、时长、帧率同时满足筛选标准的视频进行镜头拆分。

    视频拆分后规格:单视频切片最大时长支持自定义;若首轮拆分切片时长超过设定值,则会进一步做拆分,最终拆分结果均小于等于设定阈值 。

添加水印

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    水印文本:string类型,需要全屏添加的水印文本。

视频裁剪

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    裁剪项:自定义选择裁剪项,裁剪掉视频中字幕/Logo/水印/边框/密集文字等无用信息。

    裁剪面积占比过滤:裁剪视频面积/原始视频面积的值即裁剪面积占比,超出设定阈值的视频将被过滤,默认值为30%。

视频元数据过滤

  • 适用的文件格式:“视频>mp4 / avi”。

视频宽高比过滤

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    待过滤宽高比阈值:超出“宽高比阈值”的视频将被过滤掉。阈值范围为(1, 10),可输入小数点后一位。

  • 过滤样例:

    原视频数据集:

    共有两个视频,第一个宽高比为1.77,第二个宽高比为1.79

    设置宽高比阈值为1.78,经算子处理过后

    仅保留宽高比为1.79的视频

色情视频检测算子

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:给色情视频内容打标签
  • 参数配置样例:

    不需要配置参数。

  • 检测样例:

    检测结果以video_anti_porn对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体色情标签,如果未检测出则为空

暴恐视频检测算子

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:给暴恐视频内容打标签
  • 参数配置样例:

    不需要配置参数。

  • 检测样例:检测结果以video_anti_terrorism对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体暴恐标签,如果未检测出则为空

视频涉政评分算子

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    给涉政视频内容打标签

  • 参数配置样例:

    不需要配置参数。

  • 检测样例:

    检测结果以video_anti_politics对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    result:模型对文件检测的具体返回内容,包含suggestion、confidence、label三个子标签;可以一条或多条

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体涉政标签,如果未检测出则为空。

运动幅度评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    识别运动幅度过快或过慢的视频,数值越大表示运动越快。运动幅度>100光流可视为运动过快,运动幅度≤2光流可视为运动过慢。

  • 评分样例:jsonl文件中显示运动幅度评分:

质量基础评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    对视频的基础质量(清晰度、亮度、模糊、画面抖动重影、低光过曝、花屏等)进行评分。分值范围(0, 1),数值越高质量越好,评分>0.05可认为是视频基础质量较高的视频。

  • 评分样例:jsonl文件中显示质量评分:clip_quality_value:质量分

美学评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频美感较高的视频。

  • 评分样例:jsonl文件中显示美学评分:clip_esthetics_value:美学分

水印识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含水印。

  • 识别样例:jsonl文件中显示是否识别水印:consist_watermark值为1表示识别到水印,值为0表示未识别到水印。

字幕识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含字幕。

  • 识别样例:jsonl文件中显示是否识别字幕:consist_subtitle值为1表示识别到字幕,值为0表示未识别到字幕。

Logo识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含Logo。

  • 识别样例:jsonl文件中显示是否识别logo:consist_logo值为1表示识别到Logo,值为0表示未识别到Logo。

视频黑边识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含黑边。

  • 识别样例:border_value为1表示识别出黑边,值为0表示未识别出黑边

密集文字识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 参数说明:

    密集文字面积占比:超出密集文字面积占比阈值的视频可视为密集文字视频,一般默认裁剪面积占比≥7%为密集文字视频。

  • 识别样例:jsonl文件中显示是否识别密集文字:consist_densetext值为1表示识别到密集文字,值为0表示未识别到密集文字。

视频分类(InterVideo2)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    自动对短视频内容进行分类,并生成相应的标签

  • 参数配置样例:

    无需配置参数

  • 分类标注样例:

    描述信息中显示视频的各级分类:

    category_L1_cn:一级分类

    category_L4_cn:四级分类

视频摘要生成(详细)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成详细的视频摘要描述

  • 参数配置样例:

    无需参数配置

  • 打标样例:描述信息中long_prompt字段代表详细的视频摘要。

视频摘要生成(简略)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成简略的视频摘要描述。

  • 参数配置样例:

    无需参数配置

  • 打标样例:描述信息中prompt字段代表简略的视频摘要。
    图1 打标样例