图片类加工算子介绍
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。
平台提供了图文类、图片类加工算子,算子能力清单见表1。
算子分类 |
算子名称 |
算子描述 |
---|---|---|
数据提取 |
提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码),方便图文加工算子使用。 |
|
数据过滤 |
基于图片宽高、文件大小、宽高比阈值进行图片/图文数据清洗。 |
|
过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。 |
||
通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。注:语种识别模型有小概率的误判可能性。 |
||
|
||
通过把图片结构化处理后,过滤重复的图片/图文对数据。 |
||
数据打标 |
给图像算子打标签。 |
|
给危情图片内容打标签。 |
||
过滤暴恐图像。 |
||
数据转换 |
将文本数据中携带的异常字符替换为空值,数据条目不变。
|
图文提取
- 适用的文件格式:
tar+jsonl;所有图片保存为tar包。图片格式支持:jpg、jpeg、png、bmp。图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。
- 各参数说明:
- 参数配置样例:
- 提取样例:
加工前:
加工后:
色情图像检测算子
- 适用的文件格式:
tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型。
- 各参数说明:
待打标内容类型:对图片的涉黄程度进行评分, 分数越高越危险。 评分范围[(0. 100), 默认评分≥50分的视频可视为涉黄视频。
- 参数配置样例:
- 检测样例:
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体色情标签,如果未检测出则为空。
危情图像检测算子
- 适用的文件格式:
tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型;
- 各参数说明:
- 参数配置样例:
- 检测样例:检测结果以image_danger对象存储在标注文件中:
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体危情标签,如果未检测出则为空。
暴恐图像检测算子
- 适用的文件格式:
tar:所有图片保存为tar包。tar包含图片支持:jpg、jpeg、png、bmp图片类型;
- 各参数说明:
- 参数配置样例:
- 检测样例:检测结果以image_terrorism对象存储在标注文件中:
suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
confidence:模型结果检测的置信度(注意这里的置信度代表模型给出建议的置信度)。如果suggestion为pass,则为零;如果suggestion为review/block,则为0-1。
label:模型检测出的具体暴恐标签,如果未检测出则为空。