文本类加工算子能力清单
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。
平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤三类,文本类加工算子能力清单见表1。
算子分类 |
算子名称 |
算子描述 |
---|---|---|
数据提取 |
WORD内容提取 |
从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。 |
TXT内容提取 |
从TXT文件中提取所有文本内容。 |
|
CSV内容提取 |
从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 |
|
PDF内容提取 |
从PDF中提取内容转换为结构化数据。 |
|
JSON内容提取 |
从JSON文件(键值对类型文件)中提取出内容。 |
|
HTML内容提取 |
基于标签路径提取HTML数据内容,并将其他与待提取标签路径无关的内容删除。 |
|
电子书内容提取 |
从电子书中提取出所有文本内容。 |
|
智能文档解析 |
从PDF(支持扫描版)或图片中提取文本,转化为结构化数据,持文本、表格、表单、公式等内容提取。 |
|
数据转换 |
个人数据脱敏 |
对文本中的电话号码、邮箱、身份证、车牌号、IP地址、URL地址、MAC地址、护照号、IMEI等个人敏感信息进行数据脱敏,或直接删除敏感信息。 |
中文简繁转换 |
将简体文本转换为繁体,或将繁体文本转换为简体。 |
|
符号标准化 |
查找数据中携带的非标准化符号进行标准化、统一化转换。
|
|
自定义正则替换 |
数据条目不变下,使用自定义正则表达式替换文本内容。 示例如下:
|
|
日期时间格式转换 |
日期有数字+中文、全数字、全中文等形式,将不同种类的日期格式对齐到同种格式。 |
|
数据过滤 |
异常字符过滤 |
查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。
|
自定义正则过滤 |
删除符合自定义正则表达式的数据。 |
|
自定义关键词过滤 |
剔除包含关键词的数据。 |
|
敏感词过滤 |
对文本中涉及黄色、暴力、政治、机密和知识产权等敏感数据进行自动检测和过滤。 |
|
文本长度过滤 |
按照设置的文本长度,对长度范围内的数据进行保留。 |
|
冗余信息过滤 |
查找文本中的冗余信息并替换为空值,不改变数据条目。例如目录封面、图注表注、标注说明、首尾部信息、冗余段落和参考文献等非正文内容。 |
|
N-gram特征过滤 |
根据如下特征过滤:
|
|
段落特征过滤 |
根据如下特征过滤:
|
|
句子特征过滤 |
根据如下特征过滤:
|
|
词语特征过滤 |
根据如下特征过滤:
|
|
语种过滤 |
通过语种识别模型得到文档的语言类型,筛选所需语种的文档。 |
|
段落结尾不完整句子过滤 |
删除文本中不完整段落和句子。 |
|
广告数据过滤 |
删除文本中包含广告数据的句子。 |
|
全局文本去重 |
检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。 |