更新时间:2026-04-23 GMT+08:00
分享

预置数据精炼算子

数据精炼算子分为加工算子合成算子两大类,通过算子的组合编排实现完整的数据处理流程。

表1 数据精炼算子清单

算子类型

算子分类

算子名称

算子描述

文本类加工算子

无分类

开始节点

在数据精炼编排步骤中作为首节点接收待精炼数据集。针对部分文本类(单轮对话、单轮对话带人设、多轮对话、多轮对话带人设)数据,具备数据转换的功能。转换规则如下:

  • 平台格式数据集无需转换,直接进入精炼流程。
  • 非平台格式数据(Alpaca格式/ShareGPT格式)进入开始节点,均需要转化为平台格式后,再做后续处理。

结束节点

在数据精炼编排步骤中作为结束节点输出待精炼后的数据集。针对部分文本类(单轮对话、单轮对话带人设、多轮对话、多轮对话带人设)数据,具备数据转换的功能。转换规则如下:

  • 开始节点输入的数据集为平台格式,结束节点默认输出平台格式数据集。
  • 开始节点输入的数据集为非平台格式(Alpaca格式/ShareGPT格式)数据,结束节点默认输出对应非平台格式数据。
  • 结束节点可自行选择和开始节点不同格式数据集作为最终输出的数据集格式。

数据提取

WORD内容提取

从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

CSV内容提取

从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

PDF内容提取

从PDF中提取文本,转化为结构化数据,支持文本、表格、公式等内容提取。

数据转换

个人数据脱敏

对文本中的手机号码、身份证件、邮箱地址、URL链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。

中文简繁互转

将中文简体和中文繁体进行转换。

符号标准化

查找文本中携带的非标准化符号进行标准化、统一化转换。

  • 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。
  • 全角转半角:将文本中的全角字符转换为半角字符。
  • 标点符号归一化,支持统一格式的符号如下:
    • {"?": "\?\?"}
    • {"[":"〖"}
    • {"]":"〗"}
  • 数字符号归一化,例如将⓪|||⓿|统一为0.。支持统一格式的符号如下:
    • {"0.": "⓪|||⓿|"}
    • {"1.": "①|⑴|㊀|⒈|⓵|➊|❶|➀"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"3.": "③|⑶|㊂|⒊|⓷|➌|❸|➂"}
    • {"4.": "④|⑷|㊃|⒋|⓸|➍|❹|➃"}
    • {"5.": "⑤|⑸|㊄|⒌|⓹|➎|❺|➄"}
    • {"6.": "⑥|⑹|㊅|⒍|⓺|➏|❻|➅"}
    • {"7.": "⑦|⑺|㊆|⒎|⓻|➐|❼|➆"}
    • {"8.": "⑧|⑻|㊇|⒏|⓼|➑|❽|➇"}
    • {"9.": "⑨|⑼|㊈|⒐|⓽|➒|❾|➈"}
    • {"10.": "⑩|⑽|㊉|⒑|⓾|➓|❿|➉"}

自定义正则替换

数据条目不变下,使用自定义正则表达式替换文本内容。

示例如下:

  • 去除“参考文献”以及之后的内容:\n参考文献[\s\S]*
  • 针对pdf的内容,去除“0 引言”之前的内容,引言之前的内容与知识无关:[\s\S]{0,10000}0 引言
  • 针对pdf的内容,去除“1.1Java简介”之前的与知识无关的内容:[\s\S]{0,10000} 1\. 1Java简介

日期时间格式转换

自动识别日期、时间、星期,同时根据选择的格式进行统一转换。

广告数据移除

按照句子的过滤粒度,删除文本中包含广告数据的句子。

数据过滤

异常字符过滤

查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。

  • 不可见字符,例如U+0000-U+001F。
  • 表情符六。
  • 网页标签符号<style></style>。
  • 特殊符号,例如● █ ◆。
  • 乱码和无意义的字符�����。
  • 特殊空格:[\u2000-\u2009]

自定义正则过滤

删除或保留符合自定义正则表达式的数据。

自定义关键词过滤

剔除包含关键词的数据。

段落结尾不完整句子过滤

按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则删除。

敏感词过滤

对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。

文本长度过滤

按照设置的文本长度,保留长度范围内的数据。

N-gram特征过滤

用于判断文档重复度,根据特征N值计算文档内词语按N值组合后的重复此时,可通过以下两种算法比较结果是否大于特征阈值,大于特征阈值的文档删除。

  • top-gram过滤:计算重复最多的gram占总长度的比例,大于特征阈值则删除。
  • gram重复率过滤:计算所有重复的gram占总长度的比例,大于特征阈值则删除。

句子特征过滤

该算子将文档中的标点符号作为句子分隔符,统计每句字符长度,如果文档平均字符长度大于设置字符长度,则保留,反之则删除整篇文档。根据如下特征过滤:

  • 待保留的平均句长。

数据标注

违禁文本检测

违禁内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有违禁内容的JSON结构化结果。

个人隐私识别

个人隐私内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有个人隐私内容的JSON结构化结果。

垃圾内容文本检测

垃圾内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾内容的JSON结构化结果。

广告文本检测

垃圾广告内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾广告内容的JSON结构化结果。

色情文本检测

色情内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有色情内容的JSON结构化结果。

辱骂文本检测

辱骂内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有辱骂内容的JSON结构化结果。

涉政文本检测

政治敏感内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有政治敏感内容的JSON结构化结果。

预训练文本分类

针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。

文本合成类算子

数据合成

数据生成

支持从单一样本生成相似问答、为问答注入特定人设角色,并可一键调整问答难度,实现数据的规模化定制合成。

视频类加工算子

数据提取

视频时长切分

将源视频切分成固定时长的小视频,固定时长可配置,范围为1-5分钟。

镜头拆分

根据视频中的镜头场景变化将长视频拆分为短视频片段,如果某个镜头片段的长度超过设定的时间阈值,该镜头片段将按时长进行进一步拆分。

数据转换

视频裁剪

视频裁剪是裁剪掉视频中不必要的元素,例如字幕、Logo、水印、边框和密集文字,同时过滤掉那些裁剪后面积比例超出预设阈值的视频文件;使用前需要先执行字幕、logo、水印、边框、密集文字识别算子。

数据过滤

视频元数据过滤

根据视频元数据(帧率、分辨率和视频时长)进行过滤,仅保留符合选定条件的视频。注:电影标准帧率为24或30FPS。

视频宽高比过滤

根据视频的宽高比进行过滤。宽高比是指视频图像的宽度和高度之间的比率。

数据标注

色情视频检测

给色情视频内容打标签

暴恐视频检测

给暴恐视频内容打标签

视频涉政检测

给涉政视频内容打标签

运动幅度评分

通过计算每个像素在每一帧中的移动范围进行评分,识别运动幅度过快(如>100光流)或过慢(如≤2光流)的视频,数值越大表示运动越快。

美学评分

从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频基础质量较高的视频。

水印识别

识别视频中是否包含水印。

字幕识别

识别视频中是否包含字幕。

视频黑边识别

识别视频中是否包含黑边。

密集文字识别

识别视频中是否包含密集文字,超出密集文字面积占比阈值的视频可视为密集文字视频,一般默认裁剪面积占比≥7%为密集文字视频。

视频分类

通过算子返回视频的标签分类,L1存在10类,L2级别检测39类,L3级别检测93类,L4存在2219类。

视频摘要生成(简略)

通过对视频进行抽帧,通过模型推理生成简短的视频摘要描述。

视频摘要生成(详细)

通过对视频进行抽帧,通过模型推理生成详细的视频英文摘要描述。

视频中文摘要生成(详细)

通过对视频进行抽帧,通过模型推理生成详细的视频中文摘要描述。

姿态检测

通过对视频抽8帧,模型分别对图片进行标记关键点,输出任务bbox框和关键点坐标,通过对坐标的计算判断视频中是否存在人物。

镜头运动描述

模型通过对视频进行抽帧进行光流计算与推理,输出视频的镜头类型。

图片类加工算子

数据提取

图文提取

提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。

数据过滤

图片元数据过滤

基于图片宽、高、文件大小、宽高比阈值进行图片/图文数据清洗。

图片去重

通过把图片结构化处理后,过滤重复的图片/图文对数据。

数据标注

色情图像检测

给图像算子打标签。

危情图像检测

给危情图片内容打标签

暴恐图像检测

过滤暴恐图像。

开始节点

  • 适用的文件格式:适用于所有类型数据集,但针对“文本类 > 单轮对话、单轮对话带人设、多轮对话、多轮对话带人设”数据具备数据格式转换能力。
  • 说明:所有格式数据集,在开始节点处理后都会转化为平台格式数据集。

    针对部分文本类(单轮对话、单轮对话带人设、多轮对话、多轮对话带人设)数据,具备数据格式转换的功能。转换规则如下:

    • 平台格式数据集无需转换,直接进入精炼流程。
    • 非平台格式数据(Alpaca格式/ShareGPT格式)进入开始节点,均需要转化为平台格式,供后续数据算子处理。
  • 参数配置样例:

    无。

  • 转换样例:

    输入节点处理前数据集格式:平台格式/Alpaca格式/ShareGPT格式。

    输入节点处理后数据集格式:平台格式。

结束节点

  • 适用的文件格式:适用于所有类型数据集,但针对“文本类 > 单轮对话、单轮对话带人设、多轮对话、多轮对话带人设”数据具备数据格式转换能力。您也可以自主选择输出不同格式。
  • 说明:

    数据集完成数据精炼后,结束节点能够对指定数据类型数据做数据格式转换。转换规则如下:

    • 开始节点输入的数据集为平台格式,结束节点默认输出平台格式数据集。
    • 开始节点输入的数据集为非平台格式(Alpaca格式/ShareGPT格式)数据,结束节点默认输出对应同类型非平台格式数据。
    • 结束节点也可自行选择和开始节点不同格式数据集作为最终输出的数据集格式。
  • 参数配置样例:

    无。

  • 转换样例:

    输入节点处理前数据集格式:任意格式数据集。

    输出节点处理后输出数据集格式:任意格式数据集。

WORD内容提取

  • 适用的文件格式:“文档 > docx”。
  • 各参数说明:

    待提取内容类型:从Word文档中提取文本,保留原文档的标题和正文等结构,不保留图片、公式、页眉、页脚,不支持嵌套表格提取。

  • 参数配置样例:

    不需要配置参数,默认保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

  • 提取样例:

    本地导入:{"fileName":"JAVA从入门到精通.docx","original_path": "Local Import","text":"JAVA是一种跨平台......"}

    OBS导入:{"fileName":"JAVA从入门到精通.docx","original_path": "nlp_data/word/JAVA从入门到精通.docx","text":"JAVA是一种跨平台......"}

    AI Gallery: {"fileName":"JAVA从入门到精通.docx","original_path": "Gallery Subscription","text":"JAVA是一种跨平台......"}

CSV内容提取

  • 适用的数据集类型:“文本 > 单轮问答、单轮问答(人设)、问答排序”。
  • 各参数说明:

    待提取内容类型:从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

    如果提取CSV样式如:"你好,请介绍自己,我是盘古大模型",则提取内容输出为:{"context":"你好,请介绍自己","target":"我是盘古大模型"}

PDF内容提取

  • 适用的数据集类型:“文档 > pdf”。
  • 各参数说明:

    待提取内容类型:默认保留文本、表格、公式和标题,支持选择需要保存的类型,未选择的类型将去除。

    精细化内容提取:是否支持版面分析完识别是图片的内容再次进行版面分析提取。

    表格提取可选格式:默认Latex,支持将表格转为Markdown格式。

  • 参数配置样例:

  • 提取样例:

    本地导入:{"fileName":"JAVA从入门到精通.pdf","original_path": "Local Import","text":"JAVA是一种跨平台......"}。

    OBS导入:{"fileName":"JAVA从入门到精通.pdf","original_path": "nlp_data/pdf/JAVA从入门到精通.pdf","text":"JAVA是一种跨平台......"}。

    AI Gallery:{"fileName":"JAVA从入门到精通.pdf","original_path": "Gallery Subscription","text":"JAVA是一种跨平台......"}。

  • 算子限制:

    pdf内容提取处理大规模数据时,运行时间超过24小时会中断,建议拆分后再执行。

个人数据脱敏

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:对文本中的手机号码、身份证件、邮箱地址、URL链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,默认全部勾选,也可以选择部分。

  • 参数配置样例:

  • 转换样例:

    精炼前: “数据来自www.test.com”。

    精炼后:“数据来自*******”。

中文简繁互转

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:支持中文简体和中文繁体进行转换,过滤粒度为字符,默认转换方式为繁体转简体。

  • 参数配置样例:

  • 转换样例:

符号标准化

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:支持对文本中携带的非标准化符号进行标准化、统一化转换,待标准化符号有空格、全角符号、标点符号、数字符号,默认全部勾选,过滤粒度为字符。

  • 参数配置样例:

  • 转换样例:根据映射表进行符号识别并映射。

    精炼前: {"fileName":"文本1.txt","text":"测试②①③非标准"}

    精炼后: {"fileName":"文本1.txt","text":"测试2.1.3.非标准"}

自定义正则替换

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:数据条目不变下,使用自定义正则表达式替换文本内容。

  • 参数配置样例:

  • 转换样例:

    精炼前: {"text":"这是aeiou正文内容aeiou测试aeiou。"}。

    精炼后: {"text":"这是11111正文内容11111测试11111。"}。

日期时间格式转换

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:自动识别日期、时间、星期,同时根据选择的格式进行统一转换。转换类型包括日期格式、时间格式、星期格式,默认全都勾选,也支持选择部分进行转换。

  • 参数配置样例:

  • 转换样例:

    精炼前: {"text":"今天是2025年3月3号,周一,早上雨真大。"}。

    精炼后: {"text":"今天是2025-03-03 00:00:00,星期一,早上雨真大。"}。

广告数据移除

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,删除文本中包含广告数据的句子。

  • 参数配置样例:

  • 过滤样例:

    精炼前: {"text": "※具体优惠信息!※购买我们的产品,享受高达50%的折扣!单击链接获取低价:https://example.com不要错过这个机会,赶快行动吧!"}。

    精炼后: {"text":""}。

异常字符过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。异常字符过滤类型包括不可见字符、表情符、网页标签、特殊符号、乱码字符、特殊空格,默认全都勾选,也支持选择部分进行过滤。

  • 参数配置样例:

  • 过滤样例:

    精炼前: {"text":"测试异常●▌◆。<style></style>哈哈。限时特惠!☺"}。

    精炼后: {"text":"测试异常 。哈哈。 限时特惠!"}。

自定义正则过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按自定义正则表达式进行匹配过滤,过滤粒度支持按字符、段落进行过滤,默认勾选字符。

    输入正则表达式:自定义正则过滤所需要的正则表达式。

    保留匹配样本:当待过滤内容类型为段落时展示,默认为否。

  • 参数配置样例:

  • 过滤样例:

    例如过滤掉参考文献之后的内容。

    精炼前: {"text":"这是正文内容。参考文献[1]作者1,文章1,期刊1,2021.[2] 作者2,文章2,期刊2,2022."}。

    精炼后: {"text":"这是正文内容。"}。

自定义关键词过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符。待删除的关键词路径支持从obs中导入关键词,以及文本录入。

  • 参数配置样例:

  • 过滤样例:

    例如按关键词测试进行过滤。

    精炼前: {"text":"关键词测试这是一条测试数据。"}。

    精炼后: {"text":"关键词这是一条数据。"}。

段落结尾不完整句子过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则删除。

  • 参数配置样例:

  • 过滤样例:

    精炼前:"JAVA是一种面向对象的程序设计语言。使用JAVA语言。"

    精炼后:“JAVA是一种面向对象的程序设计语言。”

敏感词过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤,需要预置敏感词。过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符

  • 参数配置样例:

  • 过滤样例:

    精炼前: {"text":"嫖客啊fuck测试"}。

    精炼后: {"text":"啊测试"}。

文本长度过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照设置的文本长度,保留长度范围内的数据。默认待保留字符的长度范围为100-1000字符,支持修改,最小值为1。

  • 参数配置样例:

  • 过滤样例:

    精炼前:{"text": " 测试长度"}

    精炼后:{"text":""}

N-gram特征过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    组词数量N默认值为2,gram重复比率最大值默认值为0.15,计算阈值超过gram重复比率最大值的将会被过滤,支持修改。

  • 参数配置样例:

  • 过滤样例:

    精炼前: {"text":"醒醒,今天星期天,今天不上班,今天放假,明天星期一,明天上班。"}。

    精炼后: {"text":""}。

    注:该算子分词效果仅对中文数据有效,对英文数据无效果。

句子特征过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留的平均句长进行过滤,如果不满足则过滤。待保留的平均句长默认值为大于等于10个字符,支持修改,最小值为1。

  • 参数配置样例:

  • 过滤样例:

    精炼前: {"text":"在一个小村庄里,有一个传说。传说中,每当满月之夜,村庄的森林里会出现一只神秘的狐狸。"}。

    精炼后: {"text":""}。

违禁文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "QQ销售股民数据,你有吗"}

    打标后:

    {"text":"QQ销售股民数据,你有吗","text_ban_moderation":{"suggestion":"block","details":{"confidence":1.0,"label":"violation_info","risk_level":2,"segments":[{"segment":"qq销售股民数据"},{"segment":"股民数据"},{"segment":"股民数据&销售"},{"segment":"销售股民数据"}],"suggestion":"block"}}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过,没有问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

个人隐私识别

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "你保存一下我的MAC地址:20-6E-D4-88-F3-98"}

    打标后:

    {"text":"你保存一下我的MAC地址:20-6E-D4-88-F3-98","text_pii_moderation":{"suggestion":"block","details":[{"start":33,"end":50,"length":17,"data":"20-6E-D4-88-F3-98","category":"MAC_ADDRESS"}]}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

垃圾内容文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典"}

    打标后:

    {"text":"【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典","text_spam_moderation":{"details":[{"confidence":1.0,"label":"abuse","risk_level":2,"segments":[{"segment":"tm的"}],"suggestion":"block"}],"suggestion":"block"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

广告文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前

    {"context": "清仓大甩卖,全场只要2元", "target": "价格好便宜"}

    打标后

    {"context":"清仓大甩卖,全场只要2元","target":"价格好便宜","text_ad_moderation":{"details":[],"suggestion":"pass"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

色情文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等"}

    打标后:

    {"text":"狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等","text_porn_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'porn_violence', 'risk_level': 2, 'segments': [{'segment': '爆操'}, {'segment': '狼友黄站导航'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

辱骂文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "谁要和你一起死要死你自己死"}

    打标后:

    {"text":"谁要和你一起死要死你自己死","text_abuse_moderation":{"details":[{"confidence":0.9998,"label":"abuse","risk_level":2,"segments":[],"suggestion":"block"}],"suggestion":"block"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

涉政文本检测

  • 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀"}

    打标后:

    {"text":"但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀","text_polInfo_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'politics', 'risk_level': 3, 'segments': [{'segment': '中共当局'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

预训练文本分类

  • 适用的数据集类型:“文档、预训练文本”。
  • 各参数说明:

    待打标内容类型:针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文,默认中文。

  • 参数配置样例:

  • 打标样例:

    {"fileName":"新闻打标测试.docx","text":" 本报北京3月3日电(记者徐佩玉)中国人民银行发布的今年1月份金融市场运行情况显示,1月份,我国债券市场共发行各类债券51027.5亿元。其中,国债发行10185.0亿元,地方政府债券发行5575.7亿元,金融债券发行7042.1亿元,公司信用类债券发行12791.7亿元,信贷资产支持证券发行27.3亿元,同业存单发行15147.8亿元。\n截至1月末,我国债券市场托管余额178.2万亿元。其中,银行间市场托管余额156.9万亿元,交易所市场托管余额21.3万亿元。\n在债券市场对外开放方面,截至1月末,境外机构在中国债券市场的托管余额4.2万亿元,占中国债券市场托管余额的比重为2.3%。其中,境外机构在银行间债券市场的债券托管余额4.1万亿元:分券种看,境外机构持有国债2.0万亿元、占比48.8%,同业存单1.1万亿元、占比25.8%,政策性银行债券0.9万亿元、占20.8%。\n","pre_classification":"经济"}

数据生成

  • 适用的数据集类型:“单轮问答、单轮问答(带人设)”。
  • 各参数说明:

    生成场景:对于单轮问答、单轮问答人设的输入数据,可以对数据进行一系列合成操作,如问题生成回答、问答对改写等,选择对应使用场景即可一键生成。

    模型:选择需要用于数据生成的模型

  • 算子功能描述:支持从单一样本生成相似问答、为问答注入特定人设角色,并可一键调整问答难度,实现数据的规模化定制合成。
  • 参数配置样例:

视频时长切分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    视频切分时长:配置该参数可以确定切分后的视频时长,范围是1-5分钟。如果源视频时长不满足需要切分的条件,则保留源视频。

  • 算子功能描述:将源视频切分成固定时长的小视频,固定时长可配置,范围为1-5分钟。先进行视频切分将视频长度减小再使用镜头切分会提高算子效率。
  • 使用场景:
    • 可处理情况
      • 视频时长大于1min。
    • 暂无法解决情况
      • 视频时长小于1min。
  • 参数配置样例:

  • 视频切分后时长对比
    • 视频切分前:

    • 视频切分后:

镜头拆分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    需要拆分的视频:筛选出分辨率、时长、帧率同时满足筛选标准的视频进行镜头拆分。

    视频拆分后规格:单视频切片最大时长支持自定义;如果首轮拆分切片时长超过设定值,则会进一步做拆分,最终拆分结果均小于等于设定阈值 。

  • 使用场景:
    • 可处理情况
      • 有显著场景变换,包含直接切换或者淡入淡出。
    • 暂无法解决情况
      • 同一场景拍摄内容跳变但内容相似度高。
  • 参数配置样例:

    拆分样例:设置单视频切片最大时长3秒:

    镜头拆分前后对比:
    • 拆分前:

    • 拆分后:

视频裁剪

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    裁剪项:自定义选择裁剪项,裁剪掉视频中字幕/Logo/水印/边框/密集文字等无用信息。

    最大裁剪比例:裁剪视频面积/原始视频面积的值即裁剪面积占比,设置默认的裁剪比例,默认值为0.3。

    过裁剪保留:裁剪占比大于最大裁剪比例时,是否保留原视频。是则保留,否则过滤。

  • 使用场景:
    • 可处理情况
      • 需要先执行字幕、logo、水印、边框、密集文字识别算子。
    • 暂无法解决情况
      • 未先执行字幕、logo、水印、边框、密集文字识别算子。
      • 裁剪后无法保留留存过小或者比例失衡的视频。
  • 参数配置样例:

  • 裁剪样例:

    裁剪前:带水印视频。

    裁剪后:上部带水印部分被裁剪,视频高度变低。

视频元数据过滤

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    待保留分辨率:自定义选择保留分辨率。不满足所选分辨率的视频将被过滤掉。

    待保留时长:默认值为3,小于“待保留时长”的视频将被过滤掉。

    待保留帧率:电影标准帧率为24或30FPS,小于“待保留帧率”的视频将被过滤掉。

  • 参数配置样例:

  • 过滤样例:设置待保留时长大于等于10S:

    过滤前:两个视频,一个时长是4S,一个时长是16S。

    过滤后:只保留时长为16S的视频:

视频宽高比过滤

  • 适用的文件格式:“视频>mp4 / avi”。
  • 各参数说明:

    待过滤宽高比阈值:超出“宽高比阈值”的视频将被过滤掉。阈值范围为(1, 10),可输入小数点后一位。

  • 参数配置样例:

  • 过滤样例:

    原视频数据集:

    共有两个视频,第一个宽高比为1.77,第二个宽高比为1.79

    设置宽高比阈值为1.78,经算子处理过后,仅保留宽高比为1.79的视频。

色情视频检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:给色情视频内容打标签。
  • 参数配置样例:

    不需要配置参数。

  • 检测样例:

    检测结果以video_anti_porn对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体色情标签,如果未检测出则为空。

暴恐视频检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:给暴恐视频内容打标签。
  • 参数配置样例:

    不需要配置参数。

  • 检测样例:检测结果以video_anti_terrorism对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体暴恐标签,如果未检测出则为空。

视频涉政检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    给涉政视频内容打标签。

  • 参数配置样例:

    不需要配置参数。

  • 使用场景:

    主要检测国内政治人物、国外政治人物、国内负面政治领导人物、国外恐怖分子、国外的异端头目等,暂无法保证完全识别准确。

  • 检测样例:

    检测结果以video_anti_politics对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    result:模型对文件检测的具体返回内容,包含suggestion、confidence、label三个子标签;可以一条或多条。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体涉政标签,如果未检测出则为空。

运动幅度评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    识别运动幅度过快或过慢的视频,数值越大表示运动越快。运动幅度>100光流可视为运动过快,运动幅度≤2光流可视为运动过慢。

  • 使用场景:
    • 可处理情况
      • 画面运动幅度过大或过小,以及静止的画面可以识别。
    • 暂无法解决情况
      • 无法对快速/慢速占比小的部分进行识别。
  • 参数配置样例:

  • 评分样例:jsonl文件中显示运动幅度评分:

美学评分

  • 适用的文件格式:“视频>mp4 / avi”。
  • 评分说明:

    从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频美感较高的视频。

  • 使用场景:
    • 可处理情况
      • 美学问题或质量比较明显的视频识别效果较好。
    • 暂无法解决情况
      • 无法处理像素游戏这种类型的视频。
      • 对水印不敏感。
  • 参数配置样例:

  • 评分样例:jsonl文件中显示美学评分:clip_esthetics_value:美学分

水印识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含水印。

  • 参数配置样例:

    水印识别阈值:当水印识别可信度高于水印识别阈值时即判断存在水印,默认水印识别阈值为0.5。

  • 参数配置样例:

  • 识别样例:jsonl文件中显示是否识别水印:consist_watermark值为1表示识别到水印,值为0表示未识别到水印。

字幕识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含字幕。

  • 参数配置样例:

  • 识别样例:jsonl文件中显示是否识别字幕:consist_subtitle值为1表示识别到字幕,值为0表示未识别到字幕。

视频黑边识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    识别视频中是否包含黑边。

  • 使用场景:
    • 可处理情况
      • 只能处理视频的四个边,并且黑边的色差波动不大。
    • 暂无法解决情况
      • 无法处理不在四边,并且黑边内有其他字幕等色差变化的视频。
  • 参数配置样例:

  • 识别样例:border_value为1表示识别出黑边,值为0表示未识别出黑边

密集文字识别

  • 适用的文件格式:“视频>mp4 / avi”。
  • 参数说明:

    密集文字面积占比:超出密集文字面积占比阈值的视频可视为密集文字视频,一般密集文字面积占比阈值为1%。

    置信度:当识别置信度超过设定阈值时,即可认定为包含密集文字的视频内容。默认情况下,识别置信度阈值设为 0.5。

  • 参数配置样例:

  • 识别样例:jsonl文件中显示是否识别密集文字:consist_densetext值为1表示识别到密集文字,值为0表示未识别到密集文字。

视频分类

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    自动对短视频内容进行分类,并生成相应的标签。

  • 使用场景:
    • 可处理情况
      • 预设的类别可以进行分类。
    • 暂无法解决情况
      • 分类精度未作验证,只用来均匀采样。
      • 不支持非预设类别分类
  • 参数配置样例:

    无需配置参数。

  • 分类标注样例:

    描述信息中显示视频的各级分类:

    category_L1_cn:一级分类。

    category_L2_cn:二级分类。

    category_L3_cn:三级分类。

    category_L4_cn:四级分类。

视频摘要生成(简略)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成简略的视频摘要描述。

  • 使用场景:
    • 可处理情况
      • 所有视频都可以进行简短描述。
    • 暂无法解决情况
      • 无法指定描述方式。
      • 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:描述信息中prompt字段代表简略的视频摘要。
    图1 打标样例

视频摘要生成(详细)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成详细的视频摘要描述。

  • 使用场景:
    • 可处理情况
      • 所有视频都可以进行描述。
    • 暂无法解决情况
      • 无法指定描述方式。
      • 非常详细的内容,如数量、动作细节等无法精确描述。
      • 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:描述信息中long_prompt字段代表详细的视频摘要

视频中文摘要生成(详细)

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    通过对视频进行抽帧,通过模型推理生成详细的视频中文摘要描述。

  • 使用场景:
    • 可处理情况
      • 所有视频都可以进行描述。
    • 暂无法解决情况
      • 无法指定描述方式。
      • 非常详细的内容,如数量、动作细节等无法精确描述。
      • 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:描述信息中long_prompt_cn字段代表详细的视频摘要。

姿态检测

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    姿态检测算子从视频中抽取8帧图片,对每帧图片进行关键点打标与置信度计算,并计算符合过滤条件的图片数量,达到一定数量则表示视频中存在对应的人物数量。

  • 使用场景:
    • 可处理情况
      • 可处理有人物脸部露出的视频。
    • 暂无法解决情况
      • 人物被部分遮挡会导致识别失败。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:

    yolo_pose_select_single: 是否检测到了单个人的姿势,存在为1,否则为0。

    yolo_pose_select_few: 是否检测到了少量人(通常为2-4)的姿势,存在为1,否则为0。

    yolo_pose_select_multi: 是否检测到了多人(通常是4人或更多)的姿势,存在为1,否则为0。

    yolo_pose_select_half : 是否检测到了半个人的姿势,存在为1,否则为0。

镜头运动描述

  • 适用的文件格式:“视频>mp4 / avi”。
  • 算子说明:

    模型通过对视频进行抽帧进行光流计算与推理,输出视频的镜头类型。

  • 使用场景:
    • 可处理情况
      • 视频中运镜明确且不混乱。
    • 暂无法解决情况
      • 多种运镜组合或不明显会导致无法准确识别,只能识别预设的类别。
  • 参数配置样例:

    无需参数配置。

  • 打标样例:

    motion: 运镜的类型。

    标签范围为: { 0: 'static', 1: 'others', 2: 'pull out', 3: 'push in', 4: 'static' , 5: 'tracking', 6: 'orbit', 7: 'spin', 8: 'tilt up', 9: 'tilt down', 10: 'pan right', 11: 'pan left' ,12: 'tracking' }。

图文提取

  • 适用的文件格式:

    tar+jsonl;所有图片保存为tar包。图片格式支持:jpg、jpeg、png、bmp。图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待提取内容类型:提取图文压缩包中的JSON文本和图片;并对图片进行结构化解析。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

    精炼前:

    精炼后:

图片元数据过滤

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待过滤内容类型:

    最小宽:宽低于此设置值,图片会被过滤。

    最小高:高低于此设置值,图片会被过滤。

    最小宽高比:图片宽高比例大于此值将被过滤。

    最小文件大小:文件大小低于该文件大小会被过滤,单位为B。

  • 参数配置样例:

  • 过滤样例:

    原数据集:

    过滤后:宽度低于1079的图片被过滤。

图片去重

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待过滤内容类型:通过把图片结构化处理后,过滤重复的图片/图文对数据。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:
    图2 精炼前

    图3 精炼后

色情图像检测

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待打标内容类型:对图片的涉黄程度进行评分, 分数越高越危险。 评分范围(0. 100), 默认评分≥50分的视频可视为涉黄视频。

  • 参数配置样例:

    是:开启过滤功能。

    否:关闭过滤功能。

  • 检测样例:

    检测结果以image_porn对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体色情标签,如果未检测出则为空。

危情图像检测

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待打标内容类型:给危情图片内容打标签。

  • 参数配置样例:

    不需要配置参数。

  • 检测样例:检测结果以image_danger对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体危情标签,如果未检测出则为空。

暴恐图像检测

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待打标内容类型:过滤暴恐图像。

  • 参数配置样例:

    是:开启过滤功能。

    否:关闭过滤功能。

  • 使用场景:

    场景仅限暴恐相关场景,暂无法保证完全识别准确。

  • 检测样例:检测结果以image_terrorism对象存储在标注文件中。

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体暴恐标签,如果未检测出则为空。

相关文档