预置数据精炼算子
数据精炼算子分为加工算子和合成算子两大类,通过算子的组合编排实现完整的数据处理流程。
|
算子类型 |
算子分类 |
算子名称 |
算子描述 |
|---|---|---|---|
|
文本类加工算子 |
数据提取 |
从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。 |
|
|
从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 |
|||
|
数据转换 |
对文本中的手机号码、身份证件、邮箱地址、URL链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。 |
||
|
将中文简体和中文繁体进行转换。 |
|||
|
查找文本中携带的非标准化符号进行标准化、统一化转换。
|
|||
|
数据过滤 |
按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则删除。 |
||
|
对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。 |
|||
|
按照设置的文本长度,保留长度范围内的数据。 |
|||
|
数据标注 |
违禁内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有违禁内容的JSON结构化结果。 |
||
|
个人隐私内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有个人隐私内容的JSON结构化结果。 |
|||
|
垃圾内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾内容的JSON结构化结果。 |
|||
|
垃圾广告内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾广告内容的JSON结构化结果。 |
|||
|
色情内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有色情内容的JSON结构化结果。 |
|||
|
辱骂内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有辱骂内容的JSON结构化结果。 |
|||
|
政治敏感内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有政治敏感内容的JSON结构化结果。 |
|||
|
针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。 |
|||
|
文本合成类算子 |
数据合成 |
支持从单一样本生成相似问答、为问答注入特定人设角色,并可一键调整问答难度,实现数据的规模化定制合成。 |
|
|
视频类加工算子 |
数据提取 |
将源视频切分成固定时长的小视频,固定时长可配置,范围为1-5分钟。 |
|
|
根据视频中的镜头场景变化将长视频拆分为短视频片段,如果某个镜头片段的长度超过设定的时间阈值,该镜头片段将按时长进行进一步拆分。 |
|||
|
数据转换 |
视频裁剪是裁剪掉视频中不必要的元素,比如字幕、Logo、水印、边框和密集文字,同时过滤掉那些裁剪后面积比例超出预设阈值的视频文件;使用前需要先执行字幕、logo、水印、边框、密集文字识别算子。 |
||
|
数据过滤 |
根据视频元数据(帧率、分辨率和视频时长)进行过滤,仅保留符合选定条件的视频。注:电影标准帧率为24或30FPS。 |
||
|
根据视频的宽高比进行过滤。宽高比是指视频图像的宽度和高度之间的比率。 |
|||
|
数据标注 |
给色情视频内容打标签 |
||
|
给暴恐视频内容打标签 |
|||
|
给涉政视频内容打标签 |
|||
|
通过计算每个像素在每一帧中的移动范围进行评分,识别运动幅度过快(如>100光流)或过慢(如≤2光流)的视频,数值越大表示运动越快。 |
|||
|
从内容(吸引人,清晰度)、构图(目标物位置良好)、颜色(有活力,令人愉悦)、光线(光线明显有对比度)、轨迹(连续、稳定)等维度评价视频美感得分。分值范围(0, 1),数值越高美感越好,评分>0.95可视为视频基础质量较高的视频。 |
|||
|
识别视频中是否包含水印。 |
|||
|
识别视频中是否包含字幕。 |
|||
|
识别视频中是否包含黑边。 |
|||
|
识别视频中是否包含密集文字,超出密集文字面积占比阈值的视频可视为密集文字视频,一般默认裁剪面积占比≥7%为密集文字视频。 |
|||
|
通过算子返回视频的标签分类,L1存在10类,L2级别检测39类,L3级别检测93类,L4存在2219类。 |
|||
|
通过对视频进行抽帧,通过模型推理生成简短的视频摘要描述。 |
|||
|
通过对视频进行抽帧,通过模型推理生成详细的视频英文摘要描述。 |
|||
|
通过对视频抽8帧,模型分别对图片进行标记关键点,输出任务bbox框和关键点坐标,通过对坐标的计算判断视频中是否存在人物。 |
|||
|
模型通过对视频进行抽帧进行光流计算与推理,输出视频的镜头类型。 |
|||
|
图片类加工算子 |
数据提取 |
提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。 |
|
|
数据过滤 |
基于图片宽、高、文件大小、宽高比阈值进行图片/图文数据清洗。 |
||
|
通过把图片结构化处理后,过滤重复的图片/图文对数据。 |
|||
|
数据标注 |
给图像算子打标签。 |
||
|
过滤暴恐图像。 |
WORD内容提取
- 适用的文件格式:“文档 > docx”。
- 各参数说明:
待提取内容类型:从Word文档中提取文本,保留原文档的标题和正文等结构,不保留图片、公式、页眉、页脚,不支持嵌套表格提取。
- 参数配置样例:
- 提取样例:
本地导入:{"fileName":"JAVA从入门到精通.docx","original_path": "Local Import","text":"JAVA是一种跨平台......"}
OBS导入:{"fileName":"JAVA从入门到精通.docx","original_path": "nlp_data/word/JAVA从入门到精通.docx","text":"JAVA是一种跨平台......"}
AI Gallery: {"fileName":"JAVA从入门到精通.docx","original_path": "Gallery Subscription","text":"JAVA是一种跨平台......"}
违禁文本检测
- 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "QQ销售股民数据,你有吗"}
打标后:
{"text":"QQ销售股民数据,你有吗","text_ban_moderation":{"suggestion":"block","details":{"confidence":1.0,"label":"violation_info","risk_level":2,"segments":[{"segment":"qq销售股民数据"},{"segment":"股民数据"},{"segment":"股民数据&销售"},{"segment":"销售股民数据"}],"suggestion":"block"}}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过,没有问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
个人隐私识别
- 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:

- 过滤样例:
{"text": "你保存一下我的MAC地址:20-6E-D4-88-F3-98"}
打标后:
{"text":"你保存一下我的MAC地址:20-6E-D4-88-F3-98","text_pii_moderation":{"suggestion":"block","details":[{"start":33,"end":50,"length":17,"data":"20-6E-D4-88-F3-98","category":"MAC_ADDRESS"}]}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
垃圾内容文本检测
- 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典"}
打标后:
{"text":"【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典","text_spam_moderation":{"details":[{"confidence":1.0,"label":"abuse","risk_level":2,"segments":[{"segment":"tm的"}],"suggestion":"block"}],"suggestion":"block"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
色情文本检测
- 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等"}
打标后:
{"text":"狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等","text_porn_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'porn_violence', 'risk_level': 2, 'segments': [{'segment': '爆操'}, {'segment': '狼友黄站导航'}], 'suggestion': 'block'}]"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
辱骂文本检测
- 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "谁要和你一起死要死你自己死"}
打标后:
{"text":"谁要和你一起死要死你自己死","text_abuse_moderation":{"details":[{"confidence":0.9998,"label":"abuse","risk_level":2,"segments":[],"suggestion":"block"}],"suggestion":"block"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
涉政文本检测
- 适用的数据集类型:“问答排序、单轮问答、单轮问答(带人设) jsonl”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀"}
打标后:
{"text":"但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀","text_polInfo_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'politics', 'risk_level': 3, 'segments': [{'segment': '中共当局'}], 'suggestion': 'block'}]"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
预训练文本分类
- 适用的数据集类型:“文档、预训练文本”。
- 各参数说明:
- 参数配置样例:
- 打标样例:
{"fileName":"新闻打标测试.docx","text":" 本报北京3月3日电(记者徐佩玉)中国人民银行发布的今年1月份金融市场运行情况显示,1月份,我国债券市场共发行各类债券51027.5亿元。其中,国债发行10185.0亿元,地方政府债券发行5575.7亿元,金融债券发行7042.1亿元,公司信用类债券发行12791.7亿元,信贷资产支持证券发行27.3亿元,同业存单发行15147.8亿元。\n截至1月末,我国债券市场托管余额178.2万亿元。其中,银行间市场托管余额156.9万亿元,交易所市场托管余额21.3万亿元。\n在债券市场对外开放方面,截至1月末,境外机构在中国债券市场的托管余额4.2万亿元,占中国债券市场托管余额的比重为2.3%。其中,境外机构在银行间债券市场的债券托管余额4.1万亿元:分券种看,境外机构持有国债2.0万亿元、占比48.8%,同业存单1.1万亿元、占比25.8%,政策性银行债券0.9万亿元、占20.8%。\n","pre_classification":"经济"}
视频裁剪
色情视频检测
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:给色情视频内容打标签。
- 参数配置样例:
- 检测样例:
检测结果以video_anti_porn对象存储在标注文件中。
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体色情标签,如果未检测出则为空。

暴恐视频检测
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:给暴恐视频内容打标签。
- 参数配置样例:
- 检测样例:检测结果以video_anti_terrorism对象存储在标注文件中。
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体暴恐标签,如果未检测出则为空。

视频涉政检测
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:
- 参数配置样例:
- 使用场景:
- 检测样例:
检测结果以video_anti_politics对象存储在标注文件中。
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
result:模型对文件检测的具体返回内容,包含suggestion、confidence、label三个子标签;可以一条或多条。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体涉政标签,如果未检测出则为空。

运动幅度评分
美学评分
密集文字识别
视频分类
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:
- 使用场景:
- 可处理情况
- 预设的类别可以进行分类。
- 暂无法解决情况
- 分类精度未作验证,只用来均匀采样。
- 不支持非预设类别分类
- 可处理情况
- 参数配置样例:
视频摘要生成(简略)
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:
- 使用场景:
- 可处理情况
- 所有视频都可以进行简短描述。
- 暂无法解决情况
- 无法指定描述方式。
- 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
- 可处理情况
- 参数配置样例:
- 打标样例:描述信息中prompt字段代表简略的视频摘要。
图1 打标样例
视频摘要生成(详细)
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:
- 使用场景:
- 可处理情况
- 所有视频都可以进行描述。
- 暂无法解决情况
- 无法指定描述方式。
- 非常详细的内容,如数量、动作细节等无法精确描述。
- 只能对视频的观感信息(场景、外观、行为)进行描述,无法理解视频深度内容(如新闻理解、内容解读、知名人物识别等),无法处理音频。
- 可处理情况
- 参数配置样例:
姿态检测
镜头运动描述
- 适用的文件格式:“视频>mp4 / avi”。
- 算子说明:
- 使用场景:
- 可处理情况
- 视频中运镜明确且不混乱。
- 暂无法解决情况
- 多种运镜组合或不明显会导致无法准确识别,只能识别预设的类别。
- 可处理情况
- 参数配置样例:
图文提取
色情图像检测
- 适用的文件格式:
tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。
- 各参数说明:
待打标内容类型:对图片的涉黄程度进行评分, 分数越高越危险。 评分范围(0. 100), 默认评分≥50分的视频可视为涉黄视频。
- 参数配置样例:
否:关闭过滤功能。
- 检测样例:
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体色情标签,如果未检测出则为空。

暴恐图像检测
- 适用的文件格式:
tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。
- 各参数说明:
- 参数配置样例:
否:关闭过滤功能。
- 使用场景:
- 检测样例:检测结果以image_terrorism对象存储在标注文件中。
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体暴恐标签,如果未检测出则为空。


























































