更新时间:2024-12-03 GMT+08:00
分享

文本类加工算子能力清单

数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。

平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤三类,文本类加工算子能力清单见表1

表1 文本类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

WORD内容提取

从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

TXT内容提取

从TXT文件中提取所有文本内容。

CSV内容提取

从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

PDF内容提取

从PDF中提取内容转换为结构化数据。

JSON内容提取

从JSON文件(键值对类型文件)中提取出内容。

HTML内容提取

基于标签路径提取HTML数据内容,并将其他与待提取标签路径无关的内容删除。

电子书内容提取

从电子书中提取出所有文本内容。

智能文档解析

从PDF(支持扫描版)或图片中提取文本,转化为结构化数据,持文本、表格、表单、公式等内容提取。

数据转换

个人数据脱敏

对文本中的电话号码、邮箱、身份证、车牌号、IP地址、URL地址、MAC地址、护照号、IMEI等个人敏感信息进行数据脱敏,或直接删除敏感信息。

中文简繁转换

将简体文本转换为繁体,或将繁体文本转换为简体。

符号标准化

查找数据中携带的非标准化符号进行标准化、统一化转换。

  • 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。
  • 全角转半角:将文本中的全角字符转换为半角字符。
  • 标点符号归一化,支持统一格式的符号如下:
    • {"?": "\?\?"}
    • {"[":"〖"}
    • {"]":"〗"}
  • 数字符号归一化,例如将⓪|||⓿|统一为0.。支持统一格式的符号如下:
    • {"0.": "⓪|||⓿|"}
    • {"1.": "①|⑴|㊀|⒈|⓵|➊|❶|➀"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"3.": "③|⑶|㊂|⒊|⓷|➌|❸|➂"}
    • {"4.": "④|⑷|㊃|⒋|⓸|➍|❹|➃"}
    • {"5.": "⑤|⑸|㊄|⒌|⓹|➎|❺|➄"}
    • {"6.": "⑥|⑹|㊅|⒍|⓺|➏|❻|➅"}
    • {"7.": "⑦|⑺|㊆|⒎|⓻|➐|❼|➆"}
    • {"8.": "⑧|⑻|㊇|⒏|⓼|➑|❽|➇"}
    • {"9.": "⑨|⑼|㊈|⒐|⓽|➒|❾|➈"}
    • {"10.": "⑩|⑽|㊉|⒑|⓾|➓|❿|➉"}

自定义正则替换

数据条目不变下,使用自定义正则表达式替换文本内容。

示例如下:

  • 去除“参考文献”以及之后的内容:\n参考文献[\s\S]*
  • 针对pdf的内容,去除“0 引言”之前的内容,引言之前的内容与知识无关:[\s\S]{0,10000}0 引言
  • 针对pdf的内容,去除“1.1Java简介”之前的与知识无关的内容:[\s\S]{0,10000} 1\. 1Java简介

日期时间格式转换

日期有数字+中文、全数字、全中文等形式,将不同种类的日期格式对齐到同种格式。

数据过滤

异常字符过滤

查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。

  • 不可见字符,比如U+0000-U+001F。
  • 表情符六。
  • 网页标签符号<p>。
  • 特殊符号,比如● █ ◆。
  • 乱码和无意义的字符�����。

自定义正则过滤

删除符合自定义正则表达式的数据。

自定义关键词过滤

剔除包含关键词的数据。

敏感词过滤

对文本中涉及黄色、暴力、政治、机密和知识产权等敏感数据进行自动检测和过滤。

文本长度过滤

按照设置的文本长度,对长度范围内的数据进行保留。

冗余信息过滤

查找文本中的冗余信息并替换为空值,不改变数据条目。例如目录封面、图注表注、标注说明、首尾部信息、冗余段落和参考文献等非正文内容。

N-gram特征过滤

根据如下特征过滤:

  • N gram重复率:以N个字符为粒度统计频率大于1的N-gram的个数与所有N-gram的个数比值。
  • Top N gram占比:频率最高N gram占比。

段落特征过滤

根据如下特征过滤:

  • 段落重复率。
  • 段落非中文字符占比。
  • 段落完整性。

句子特征过滤

根据如下特征过滤:

  • 过滤平均句长小于阈值的文档。

词语特征过滤

根据如下特征过滤:

  • 词个数。
  • 平均词长度。

语种过滤

通过语种识别模型得到文档的语言类型,筛选所需语种的文档。

段落结尾不完整句子过滤

删除文本中不完整段落和句子。

广告数据过滤

删除文本中包含广告数据的句子。

全局文本去重

检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。

相关文档