更新时间:2025-07-30 GMT+08:00
分享

图片类加工算子介绍

数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。

平台提供了图文类、图片类加工算子,算子能力清单见表1

表1 图片类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

图文提取

提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。

数据过滤

图片元数据过滤

基于图片宽高、文件大小、宽高比阈值进行图片/图文数据清洗。

图文文本长度过滤

过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。

图文文本语言过滤

通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。注:语种识别模型有小概率的误判可能性。

图文去重

  • 基于结构化图片去重图文。
  • 判断相同文本对应不同的图片数据是否超过“单文本最大图片数阈值”阈值,如果超过则随机删除多余图片,仅保留阈值以内的图文数量。

图片去重

通过把图片结构化处理后,过滤重复的图片/图文对数据。

数据打标

色情图像检测算子

给图像算子打标签。

危情图像检测算子

给危情图片内容打标签。

暴恐图像检测算子

过滤暴恐图像。

数据转换

图文异常字符过滤

将文本数据中携带的异常字符替换为空值,数据条目不变。

  • 不可见字符,例如U+0000-U+001F。
  • 表情符六。
  • 网页标签符号<p> 。
  • 特殊符号,比如● █ ◆ 。
  • 乱码和无意义的字符�����。

图文提取

  • 适用的文件格式:

    tar+jsonl;所有图片保存为tar包。图片格式支持:jpg、jpeg、png、bmp。图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待提取内容类型:提取图文压缩包中的JSON文本和图片;并对图片进行结构化解析。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

加工前:

加工后:

图片元数据过滤

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待过滤内容类型:

    最小宽高:宽或高任意一边低于此设置值,图片会被过滤。

    最小文件大小:文件大小低于该文件大小会被过滤,单位为B。

  • 参数配置样例:

  • 过滤样例:

    原数据集:

    过滤后:有一边低于480的图片被过滤。

图文文本长度过滤

  • 适用的文件格式:

    tar+jsonl:所有图片保存为tar包。图片支持:jpg、jpeg、png、bmp图片类型。

    图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待过滤内容类型:过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度统计为1。

  • 参数配置样例:

  • 过滤样例:

    加工前:

    参数配置:

    加工后:

图文文本语言过滤

  • 适用的文件格式:

    tar+jsonl:所有图片保存为tar包。图片支持:jpg、jpeg、png、bmp图片类型。

    图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待过滤内容类型:提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。

  • 参数配置样例:

  • 去重样例:

    加工前:

    参数配置:

    加工后:

图文去重

  • 适用的文件格式:

    tar+jsonl:所有图片保存为tar包。图片支持:jpg、jpeg、png、bmp图片类型。

    图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待过滤内容类型:

    1. 基于结均化图片去重图文。
    2. 判断相同文本对应不同的图片数据是否超过单文本最大图片数阈值,如果超过则随机删除多余图片, 仅保留阈值以内的图文数量。
  • 参数配置样例:

  • 去重样例:

    加工前:

    参数配置:

    加工后:

图片去重

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待过滤内容类型:通过把图片结构化处理后,过滤重复的图片/图文对数据。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:

    加工前:

    加工后:

色情图像检测算子

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。

  • 各参数说明:

    待打标内容类型:对图片的涉黄程度进行评分, 分数越高越危险。 评分范围[(0. 100), 默认评分≥50分的视频可视为涉黄视频。

  • 参数配置样例:

    不需要配置参数。

  • 检测样例:

    检测结果以image_porn对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体色情标签,如果未检测出则为空。

危情图像检测算子

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型;

  • 各参数说明:

    待打标内容类型:给危情图片内容打标签。

  • 参数配置样例:

    不需要配置参数。

  • 检测样例:检测结果以image_danger对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体危情标签,如果未检测出则为空。

暴恐图像检测算子

  • 适用的文件格式:

    jpg、jpeg、png、bmp。

    tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型;

  • 各参数说明:

    待打标内容类型:过滤暴恐图像。

  • 参数配置样例:

    不需要配置参数。

  • 检测样例:检测结果以image_terrorism对象存储在标注文件中:

    suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

    confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。

    label:模型检测出的具体暴恐标签,如果未检测出则为空。

图文异常字符过滤

  • 适用的文件格式:

    tar+jsonl:所有图片保存为tar包。图片支持:jpg、jpeg、png、bmp图片类型。

    图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。

  • 各参数说明:

    待转换内容类型:将文本数据中携带的异常字符替换为空值,数据条目不变。

    1)不可见字符,比如U+0000-U+001F 。

    2)表情符?? 。

    3)网页标签符号<p> 。

    4)特殊符号,比如● █ ◆ 。

    5)乱码和无意义的字符�����。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:

    加工前:

    加工后:

相关文档