更新时间:2024-08-29 GMT+08:00
分享

清洗算子功能介绍

数据清洗是提高数据质量的重要环节,包括去除异常的字符、去除表情符号和去除个人敏感内容等,经过清洗的数据可以提升训练阶段的稳定性。

平台支持通过以下清洗能力:

表1 清洗算子说明

算子类型

功能

说明

数据转换

全角转半角

将文本中的所有全角字符转换成半角字符。

中文繁简体互转

简体转换成繁体或者繁体转换成简体。

去除不可见字符

移除文本中不可见字符,如U+0000-U+001F。

去除表情符

移除文本中表情符,如✅。

去除网页标签

移除文本中网页标签符号。

去除特殊字符

移除文本中特殊符号,如● █ ◆ ◪ ► ® ©。

统一空格

将文本中不同的unicode空格比如U+00A0、U+200A,统一替换成通用空格。

去除乱码

移除去除乱码和无意义的字符。

html转义符反转

将文本中html转义符进行反转,如>|>替换为>|>。

冗余说明去除

移除文本中冗余的说明。

去除冗余尾部信息

移除文本尾部冗余的信息。

冗余段落过滤

移除文本中的冗余段落。

字符归一化

将文本中不同的字符风格统一显示,如①,⑴,㊀,⒈,⓵,➊,❶,➀统一显示为1.,1.,1.,1.,1.,1.,1.,1.。

数据过滤

符号比率过滤

如果文本中符号比例大于指定阈值时,则过滤文本,符号包括特殊符号、标点符号、大中小。

文本长度过滤

过滤文本长度超出指定范围的内容。

乱码文本

过滤乱码字符占比超过阈值的文本。

汉字比率过滤

基于文档中汉字占比过滤数据。

目录\封面过滤

移除文本的目录和封面。

图注标注过滤

移除文本中的图标和标注信息。

参考文献过滤

移除文本中参考文献的信息。

数据去重

去重

移除文本中重复内容。

数据安全

数据脱敏

识别并对文本中电话号码、邮箱、身份证等信息进行脱敏。

敏感词过滤

识别并过滤文本中包含的涉黄、涉暴、涉政等敏感词。

通用清洗

正则替换

基于给定的正则表达式,进行文本替换。

正则过滤

基于给定的正则表达式,进行文本过滤。

数据读取

单栏文字版PDF文档读取

解析PDF文档。数据集文件类型为PDF时显示。

word文本读取

解析WORD文档,支持doc和docx格式。

html格式读取

解析HTML文件。

相关文档