更新时间:2024-12-03 GMT+08:00
分享

图片类加工算子能力清单

数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。

平台提供了图文类、图片类加工算子,算子能力清单见表1表2

图文类加工算子能力清单

表1 图文类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

图文提取

提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码)。

数据过滤

图文文本长度过滤

过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。

图文文本语言过滤

通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。

图文去重

  • 基于结构化图片去重
  • 判断相同文本对应不同的图片数据是否超过阈值,如果超过则去重。

数据转换

图文异常字符过滤

将文本数据中携带的异常字符替换为空值,数据条目不变。

  • 不可见字符,比如U+0000-U+001F
  • 表情符六
  • 网页标签符号<p>
  • 特殊符号,比如● █ ◆
  • 乱码和无意义的字符�����

图片类加工算子能力清单

表2 图片类加工算子功能表

算子分类

算子名称

算子描述

数据过滤

图片元数据过滤

基于图片存储大小、宽高比属性进行图片/图文数据清洗。

图片去重

通过把图片结构化处理后,过滤重复的图片/图文对数据。

数据打标

图片鉴黄评分

对图片的涉黄程度进行评分,分数越高越危险。评分范围(0,100),默认评分超过50分的视频可视为涉黄视频。

相关文档