图片类加工算子能力清单
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。
平台提供了图文类、图片类加工算子,算子能力清单见表1、表2。
图文类加工算子能力清单
算子分类 |
算子名称 |
算子描述 |
---|---|---|
数据提取 |
图文提取 |
提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码)。 |
数据过滤 |
图文文本长度过滤 |
过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。 |
图文文本语言过滤 |
通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。 |
|
图文去重 |
|
|
数据转换 |
图文异常字符过滤 |
将文本数据中携带的异常字符替换为空值,数据条目不变。
|