更新时间:2026-03-12 GMT+08:00
分享

预置数据精炼算子

数据精炼算子分为加工算子合成算子两大类,通过算子的组合编排实现完整的数据处理流程。

表1 数据精炼算子清单

算子类型

算子分类

算子名称

算子描述

文本类加工算子

数据提取

WORD内容提取

从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

CSV内容提取

从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

数据转换

个人数据脱敏

对文本中的手机号码、身份证件、邮箱地址、URL链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。

中文简繁互转

将中文简体和中文繁体进行转换。

符号标准化

查找文本中携带的非标准化符号进行标准化、统一化转换。

  • 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。
  • 全角转半角:将文本中的全角字符转换为半角字符。
  • 标点符号归一化,支持统一格式的符号如下:
    • {"?": "\?\?"}
    • {"[":"〖"}
    • {"]":"〗"}
  • 数字符号归一化,例如将⓪|||⓿|统一为0.。支持统一格式的符号如下:
    • {"0.": "⓪|||⓿|"}
    • {"1.": "①|⑴|㊀|⒈|⓵|➊|❶|➀"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"3.": "③|⑶|㊂|⒊|⓷|➌|❸|➂"}
    • {"4.": "④|⑷|㊃|⒋|⓸|➍|❹|➃"}
    • {"5.": "⑤|⑸|㊄|⒌|⓹|➎|❺|➄"}
    • {"6.": "⑥|⑹|㊅|⒍|⓺|➏|❻|➅"}
    • {"7.": "⑦|⑺|㊆|⒎|⓻|➐|❼|➆"}
    • {"8.": "⑧|⑻|㊇|⒏|⓼|➑|❽|➇"}
    • {"9.": "⑨|⑼|㊈|⒐|⓽|➒|❾|➈"}
    • {"10.": "⑩|⑽|㊉|⒑|⓾|➓|❿|➉"}

数据过滤

段落结尾不完整句子过滤

按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则删除。

敏感词过滤

对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。

文本长度过滤

按照设置的文本长度,保留长度范围内的数据。

数据标注

违禁文本检测

违禁内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有违禁内容的JSON结构化结果。

个人隐私识别

个人隐私内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有个人隐私内容的JSON结构化结果。

垃圾内容文本检测

垃圾内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾内容的JSON结构化结果。

广告文本检测

垃圾广告内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾广告内容的JSON结构化结果。

色情文本检测

色情内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有色情内容的JSON结构化结果。

辱骂文本检测

辱骂内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有辱骂内容的JSON结构化结果。

涉政文本检测

政治敏感内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有政治敏感内容的JSON结构化结果。

预训练文本分类

针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。

文本合成类算子

数据合成

数据生成

支持从单一样本生成相似问答、为问答注入特定人设角色,并可一键调整问答难度,实现数据的规模化定制合成。

视频类加工算子

数据提取

视频时长切分

将源视频切分成固定时长的小视频,固定时长可配置,范围为1-5分钟。

镜头拆分

根据视频中的镜头场景变化将长视频拆分为短视频片段,如果某个镜头片段的长度超过设定的时间阈值,该镜头片段将按时长进行进一步拆分。

数据转换

视频裁剪

视频裁剪是裁剪掉视频中不必要的元素,比如字幕、Logo、水印、边框和密集文字,同时过滤掉那些裁剪后面积比例超出预设阈值的视频文件;使用前需要先执行字幕、logo、水印、边框、密集文字识别算子。

数据过滤

视频元数据过滤

根据视频元数据(帧率、分辨率和视频时长)进行过滤,仅保留符合选定条件的视频。注:电影标准帧率为24或30FPS。

视频宽高比过滤

根据视频的宽高比进行过滤。宽高比是指视频图像的宽度和高度之间的比率。

数据标注

色情视频检测

给色情视频内容打标签

暴恐视频检测

给暴恐视频内容打标签

视频涉政检测

给涉政视频内容打标签

运动幅度评分

通过计算每个像素在每一帧中的移动范围进行评分,识别运动幅度过快(如>100光流)或过慢(如≤2光流)的视频,数值越大表示运动越快。

美学评分

从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频基础质量较高的视频。

水印识别

识别视频中是否包含水印。

字幕识别

识别视频中是否包含字幕。

视频黑边识别

识别视频中是否包含黑边。

密集文字识别

识别视频中是否包含密集文字,超出密集文字面积占比阈值的视频可视为密集文字视频,一般默认裁剪面积占比≥7%为密集文字视频。

视频分类

通过算子返回视频的标签分类,L1存在10类,L2级别检测39类,L3级别检测93类,L4存在2219类。

视频摘要生成(简略)

通过对视频进行抽帧,通过模型推理生成简短的视频摘要描述。

视频摘要生成(详细)

通过对视频进行抽帧,通过模型推理生成详细的视频英文摘要描述。

姿态检测

通过对视频抽8帧,模型分别对图片进行标记关键点,输出任务bbox框和关键点坐标,通过对坐标的计算判断视频中是否存在人物。

镜头运动描述

模型通过对视频进行抽帧进行光流计算与推理,输出视频的镜头类型。

图片类加工算子

数据提取

图文提取

提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。

数据过滤

图片元数据过滤

基于图片宽、高、文件大小、宽高比阈值进行图片/图文数据清洗。

图片去重

通过把图片结构化处理后,过滤重复的图片/图文对数据。

数据标注

色情图像检测

给图像算子打标签。

暴恐图像检测

过滤暴恐图像。

WORD内容提取

  • 适用的文件格式:“文档 > docx”。
  • 各参数说明:

    待提取内容类型:从Word文档中提取文本,保留原文档的标题和正文等结构,不保留图片、公式、页眉、页脚,不支持嵌套表格提取。

  • 参数配置样例:

    不需要配置参数,默认保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

  • 提取样例:

    本地导入:{"fileName":"JAVA从入门到精通.docx","original_path": "Local Import","text":"JAVA是一种跨平台......"}

    OBS导入:{"fileName":"JAVA从入门到精通.docx","original_path": "nlp_data/word/JAVA从入门到精通.docx","text":"JAVA是一种跨平台......"}

    AI Gallery: {"fileName":"JAVA从入门到精通.docx","original_path": "Gallery Subscription","text":"JAVA是一种跨平台......"}

CSV内容提取

  • 适用的数据集类型:“文本 > 单轮问答、单轮问答(人设)、问答排序”。
  • 各参数说明:

    待提取内容类型:从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

    若提取CSV样式如:"你好,请介绍自己,我是盘古大模型",则提取内容输出为:{"context":"你好,请介绍自己","target":"我是盘古大模型"}

个人数据脱敏

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:对文本中的手机号码、身份证件、邮箱地址、URL链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,默认全部勾选,也可以选择部分。

  • 参数配置样例:

  • 转换样例:

    加工前: “数据来自www.test.com”。

    加工后:“数据来自*******”。

中文简繁互转

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:支持中文简体和中文繁体进行转换,过滤粒度为字符,默认转换方式为繁体转简体。

  • 参数配置样例:

  • 转换样例:

符号标准化

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:支持对文本中携带的非标准化符号进行标准化、统一化转换,待标准化符号有空格、全角符号、标点符号、数字符号,默认全部勾选,过滤粒度为字符。

  • 参数配置样例:

  • 转换样例:根据映射表进行符号识别并映射。

    加工前: {"fileName":"文本1.txt","text":"测试②①③非标准"}

    加工后: {"fileName":"文本1.txt","text":"测试2.1.3.非标准"}

段落结尾不完整句子过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则删除。

  • 参数配置样例:

  • 过滤样例:

    加工前:"JAVA是一种面向对象的程序设计语言。使用JAVA语言。"

    加工后:“JAVA是一种面向对象的程序设计语言。”

敏感词过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤,需要预置敏感词。过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符

  • 参数配置样例:

  • 过滤样例:

    加工前: {"text":"嫖客啊fuck测试"}

    加工后: {"text":"啊测试"}

文本长度过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照设置的文本长度,保留长度范围内的数据。默认待保留字符的长度范围为100-1000字符,支持修改,最小值为1。

  • 参数配置样例:

  • 过滤样例:

    加工前:{"text": " 测试长度"}

    加工后:{"text":""}

违禁文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "QQ销售股民数据,你有吗"}

    打标后:

    {"text":"QQ销售股民数据,你有吗","text_ban_moderation":{"suggestion":"block","details":{"confidence":1.0,"label":"violation_info","risk_level":2,"segments":[{"segment":"qq销售股民数据"},{"segment":"股民数据"},{"segment":"股民数据&销售"},{"segment":"销售股民数据"}],"suggestion":"block"}}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过,没有问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

个人隐私识别

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "你保存一下我的MAC地址:20-6E-D4-88-F3-98"}

    打标后:

    {"text":"你保存一下我的MAC地址:20-6E-D4-88-F3-98","text_pii_moderation":{"suggestion":"block","details":[{"start":33,"end":50,"length":17,"data":"20-6E-D4-88-F3-98","category":"MAC_ADDRESS"}]}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

垃圾内容文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典"}

    打标后:

    {"text":"【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典","text_spam_moderation":{"details":[{"confidence":1.0,"label":"abuse","risk_level":2,"segments":[{"segment":"tm的"}],"suggestion":"block"}],"suggestion":"block"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

广告文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前

    {"context": "清仓大甩卖,全场只要2元", "target": "价格好便宜"}

    打标后

    {"context":"清仓大甩卖,全场只要2元","target":"价格好便宜","text_ad_moderation":{"details":[],"suggestion":"pass"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

色情文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等"}

    打标后:

    {"text":"狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等","text_porn_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'porn_violence', 'risk_level': 2, 'segments': [{'segment': '爆操'}, {'segment': '狼友黄站导航'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

辱骂文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "谁要和你一起死要死你自己死"}

    打标后:

    {"text":"谁要和你一起死要死你自己死","text_abuse_moderation":{"details":[{"confidence":0.9998,"label":"abuse","risk_level":2,"segments":[],"suggestion":"block"}],"suggestion":"block"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

涉政文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀"}

    打标后:

    {"text":"但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀","text_polInfo_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'politics', 'risk_level': 3, 'segments': [{'segment': '中共当局'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

预训练文本分类

  • 适用的数据集类型:“文档、预训练文本”。
  • 各参数说明:

    待打标内容类型:针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文,默认中文。

  • 参数配置样例:

  • 打标样例:

    {"fileName":"新闻打标测试.docx","text":" 本报北京3月3日电(记者徐佩玉)中国人民银行发布的今年1月份金融市场运行情况显示,1月份,我国债券市场共发行各类债券51027.5亿元。其中,国债发行10185.0亿元,地方政府债券发行5575.7亿元,金融债券发行7042.1亿元,公司信用类债券发行12791.7亿元,信贷资产支持证券发行27.3亿元,同业存单发行15147.8亿元。\n截至1月末,我国债券市场托管余额178.2万亿元。其中,银行间市场托管余额156.9万亿元,交易所市场托管余额21.3万亿元。\n在债券市场对外开放方面,截至1月末,境外机构在中国债券市场的托管余额4.2万亿元,占中国债券市场托管余额的比重为2.3%。其中,境外机构在银行间债券市场的债券托管余额4.1万亿元:分券种看,境外机构持有国债2.0万亿元、占比48.8%,同业存单1.1万亿元、占比25.8%,政策性银行债券0.9万亿元、占20.8%。\n","pre_classification":"经济"}

数据生成

  • 适用的数据集类型:“单轮问答、单轮问答(带人设)”。
  • 各参数说明:

    生成场景:对于单轮问答、单轮问答人设的输入数据,可以对数据进行一系列合成操作,如问题生成回答、问答对改写等,选择对应使用场景即可一键生成。

    模型:选择需要用于数据生成的模型

  • 算子功能描述:支持从单一样本生成相似问答、为问答注入特定人设角色,并可一键调整问答难度,实现数据的规模化定制合成
  • 参数配置样例:

视频时长切分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    视频切分时长:配置该参数可以确定切分后的视频时长,范围是1-5分钟。若源视频时长不满足需要切分的条件,则保留源视频。

  • 算子功能描述:将源视频切分成固定时长的小视频,固定时长可配置,范围为1-5分钟。先进行视频切分将视频长度减小再使用镜头切分会提高算子效率。
  • 使用场景:
    • 可处理情况
      • 视频时长大于1min
    • 暂无法解决情况
      • 视频时长小于1min
  • 参数配置样例:

  • 视频切分后时长对比
    • 视频切分前:

    • 视频切分后:

镜头拆分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    需要拆分的视频:筛选出分辨率、时长、帧率同时满足筛选标准的视频进行镜头拆分。

    视频拆分后规格:单视频切片最大时长支持自定义;若首轮拆分切片时长超过设定值,则会进一步做拆分,最终拆分结果均小于等于设定阈值 。

  • 使用场景:
    • 可处理情况
      • 有显著场景变换,包含直接切换或者淡入淡出
    • 暂无法解决情况
      • 同一场景拍摄内容跳变但内容相似度高
  • 参数配置样例:

    拆分样例:设置单视频切片最大时长3秒:

  • 镜头拆分前后对比:
    • 拆分前:

    • 拆分后:

视频裁剪

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    裁剪项:自定义选择裁剪项,裁剪掉视频中字幕/Logo/水印/边框/密集文字等无用信息。

    最大裁剪比例:裁剪视频面积/原始视频面积的值即裁剪面积占比,设置默认的裁剪比例,默认值为0.3。

    过裁剪保留:裁剪占比大于最大裁剪比例时,是否保留原视频。是则保留,否则过滤。

  • 使用场景:
    • 可处理情况
      • 需要先执行字幕、logo、水印、边框、密集文字识别算子。
    • 暂无法解决情况
      • 未先执行字幕、logo、水印、边框、密集文字识别算子。
      • 裁剪后无法保留留存过小或者比例失衡的视频。
  • 参数配置样例:

  • 裁剪样例:

    裁剪前:带水印视频。

    裁剪后:上部带水印部分被裁剪,视频高度变低。

视频元数据过滤

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    待保留分辨率:自定义选择保留分辨率。不满足所选分辨率的视频将被过滤掉。

    待保留时长:默认值为3,小于“待保留时长”的视频将被过滤掉。

    待保留帧率:电影标准帧率为24或30FPS,小于“待保留帧率”的视频将被过滤掉。

  • 参数配置样例:

  • 过滤样例:设置待保留时长大于等于10S:

    过滤前:两个视频,一个时长是4S,一个时长是16S。

    过滤后:只保留时长为16S的视频:

视频宽高比过滤

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    待过滤宽高比阈值:超出“宽高比阈值”的视频将被过滤掉。阈值范围为(1, 10),可输入小数点后一位。

  • 参数配置样例:

  • 过滤样例:

    原视频数据集:

    共有两个视频,第一个宽高比为1.77,第二个宽高比为1.79

    设置宽高比阈值为1.78,经算子处理过后,仅保留宽高比为1.79的视频。

色情视频检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:给色情视频内容打标签。
  • 参数配置样例:

    不需要配置参数。

  • 检测样例:

    检测结果以video_anti_porn对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体色情标签,如果未检测出则为空。

暴恐视频检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:给暴恐视频内容打标签。
  • 参数配置样例:

    不需要配置参数。

  • 检测样例:检测结果以video_anti_terrorism对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体暴恐标签,如果未检测出则为空。

视频涉政检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    给涉政视频内容打标签。

  • 参数配置样例:

    不需要配置参数。

  • 使用场景:

    主要检测国内政治人物、国外政治人物、国内负面政治领导人物、国外恐怖分子、国外的异端头目等,暂无法保证完全识别准确。

  • 检测样例:

    检测结果以video_anti_politics对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    result:模型对文件检测的具体返回内容,包含suggestion、confidence、label三个子标签;可以一条或多条。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体涉政标签,如果未检测出则为空。

运动幅度评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    识别运动幅度过快或过慢的视频,数值越大表示运动越快。运动幅度>100光流可视为运动过快,运动幅度≤2光流可视为运动过慢。

  • 使用场景:
    • 可处理情况
      • 画面运动幅度过大或过小,以及静止的画面可以识别。
    • 暂无法解决情况
      • 无法对快速/慢速占比小的部分进行识别。
  • 参数配置样例:

  • 评分样例:jsonl文件中显示运动幅度评分:

美学评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频美感较高的视频。

  • 使用场景:
    • 可处理情况
      • 美学问题或质量比较明显的视频识别效果较好。
    • 暂无法解决情况
      • 无法处理像素游戏这种类型的视频。
      • 对水印不敏感。
  • 参数配置样例:

  • 评分样例:jsonl文件中显示美学评分:clip_esthetics_value:美学分

水印识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含水印。

  • 参数配置样例:

    水印识别阈值:当水印识别可信度高于水印识别阈值时即判断存在水印,默认水印识别阈值为0.5。

  • 参数配置样例:

  • 识别样例:jsonl文件中显示是否识别水印:consist_watermark值为1表示识别到水印,值为0表示未识别到水印。

字幕识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含字幕。

  • 参数配置样例:

  • 识别样例:jsonl文件中显示是否识别字幕:consist_subtitle值为1表示识别到字幕,值为0表示未识别到字幕。

视频黑边识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含黑边。

  • 使用场景:
    • 可处理情况
      • 只能处理视频的四个边,并且黑边的色差波动不大。
    • 暂无法解决情况
      • 无法处理不在四边,并且黑边内有其他字幕等色差变化的视频。
  • 参数配置样例:

  • 识别样例:border_value为1表示识别出黑边,值为0表示未识别出黑边

密集文字识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 参数说明:

    密集文字面积占比:超出密集文字面积占比阈值的视频可视为密集文字视频,一般密集文字面积占比阈值为1%。

    置信度:当识别置信度超过设定阈值时,即可认定为包含密集文字的视频内容。默认情况下,识别置信度阈值设为 0.5。

  • 参数配置样例:

  • 识别样例:jsonl文件中显示是否识别密集文字:consist_densetext值为1表示识别到密集文字,值为0表示未识别到密集文字。

视频分类

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    自动对短视频内容进行分类,并生成相应的标签。

  • 使用场景:
    • 可处理情况
      • 预设的类别可以进行分类。
    • 暂无法解决情况
      • 分类精度未作验证,只用来均匀采样。
      • 不支持非预设类别分类
  • 参数配置样例:

    无需配置参数。

  • 分类标注样例:

    描述信息中显示视频的各级分类:

    category_L1_cn:一级分类。

    category_L2_cn:二级分类。

    category_L3_cn:三级分类。

    category_L4_cn:四级分类。

视频摘要生成(简略)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成简略的视频摘要描述。

  • 使用场景:
    • 可处理情况
      • 所有视频都可以进行简短描述。
    • 暂无法解决情况
      • 无法指定描述方式。
      • 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:描述信息中prompt字段代表简略的视频摘要。
    图1 打标样例

视频摘要生成(详细)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成详细的视频摘要描述。

  • 使用场景:
    • 可处理情况
      • 所有视频都可以进行描述。
    • 暂无法解决情况
      • 无法指定描述方式。
      • 非常详细的内容,如数量、动作细节等无法精确描述。
      • 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:描述信息中long_prompt字段代表详细的视频摘要。

姿态检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    姿态检测算子从视频中抽取8帧图片,对每帧图片进行关键点打标与置信度计算,并计算符合过滤条件的图片数量,达到一定数量则表示视频中存在对应的人物数量。

  • 使用场景:
    • 可处理情况
      • 可处理有人物脸部露出的视频。
    • 暂无法解决情况
      • 人物被部分遮挡会导致识别失败。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:

    yolo_pose_select_single: 是否检测到了单个人的姿势,存在为1,否则为0。

    yolo_pose_select_few: 是否检测到了少量人(通常为2-4)的姿势,存在为1,否则为0。

    yolo_pose_select_multi: 是否检测到了多人(通常是4人或更多)的姿势,存在为1,否则为0。

    yolo_pose_select_half : 是否检测到了半个人的姿势,存在为1,否则为0。

镜头运动描述

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    模型通过对视频进行抽帧进行光流计算与推理,输出视频的镜头类型。

  • 使用场景:
    • 可处理情况
      • 视频中运镜明确且不混乱。
    • 暂无法解决情况
      • 多种运镜组合或不明显会导致无法准确识别,只能识别预设的类别。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:

    motion: 运镜的类型。

    标签范围为: { 0: 'static', 1: 'others', 2: 'pull out', 3: 'push in', 4: 'static' , 5: 'tracking', 6: 'orbit', 7: 'spin', 8: 'tilt up', 9: 'tilt down', 10: 'pan right', 11: 'pan left' ,12: 'tracking' }。

图文提取

  • 适用的文件格式:

    tar+jsonl;所有图片保存为tar包。图片格式支持:jpg、jpeg、png、bmp。图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待提取内容类型:提取图文压缩包中的JSON文本和图片;并对图片进行结构化解析。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

    加工前:

    加工后:

图片元数据过滤

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待过滤内容类型:

    最小宽:宽低于此设置值,图片会被过滤。

    最小高:高低于此设置值,图片会被过滤。

    最小宽高比:图片宽高比例大于此值将被过滤。

    最小文件大小:文件大小低于该文件大小会被过滤,单位为B。

  • 参数配置样例:

  • 过滤样例:

    原数据集:

    过滤后:有一边低于1224的图片被过滤。

图片去重

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待过滤内容类型:通过把图片结构化处理后,过滤重复的图片/图文对数据。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:
    图2 加工前
    图3 加工后

色情图像检测

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待打标内容类型:对图片的涉黄程度进行评分, 分数越高越危险。 评分范围(0. 100), 默认评分≥50分的视频可视为涉黄视频。

  • 参数配置样例:

    是:开启过滤功能。

    否:关闭过滤功能。

  • 检测样例:

    检测结果以image_porn对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体色情标签,如果未检测出则为空。

暴恐图像检测

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待打标内容类型:过滤暴恐图像。

  • 参数配置样例:

    是:开启过滤功能。

    否:关闭过滤功能。

  • 使用场景:

    场景仅限暴恐相关场景,暂无法保证完全识别准确。

  • 检测样例:检测结果以image_terrorism对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体暴恐标签,如果未检测出则为空。

相关文档