清洗算子功能介绍
数据清洗是提高数据质量的重要环节,包括去除异常的字符、去除表情符号和去除个人敏感内容等,经过清洗的数据可以提升训练阶段的稳定性。
平台支持通过以下清洗能力:
算子类型 |
功能 |
说明 |
---|---|---|
数据转换 |
全角转半角 |
将文本中的所有全角字符转换成半角字符。 |
中文繁简体互转 |
简体转换成繁体或者繁体转换成简体。 |
|
去除不可见字符 |
移除文本中不可见字符,如U+0000-U+001F。 |
|
去除表情符 |
移除文本中表情符,如✅。 |
|
去除网页标签 |
移除文本中网页标签符号。 |
|
去除特殊字符 |
移除文本中特殊符号,如● █ ◆ ◪ ► ® ©。 |
|
统一空格 |
将文本中不同的unicode空格比如U+00A0、U+200A,统一替换成通用空格。 |
|
去除乱码 |
移除去除乱码和无意义的字符。 |
|
html转义符反转 |
将文本中html转义符进行反转,如>|>替换为>|>。 |
|
冗余说明去除 |
移除文本中冗余的说明。 |
|
去除冗余尾部信息 |
移除文本尾部冗余的信息。 |
|
冗余段落过滤 |
移除文本中的冗余段落。 |
|
字符归一化 |
将文本中不同的字符风格统一显示,如①,⑴,㊀,⒈,⓵,➊,❶,➀统一显示为1.,1.,1.,1.,1.,1.,1.,1.。 |
|
数据过滤 |
符号比率过滤 |
如果文本中符号比例大于指定阈值时,则过滤文本,符号包括特殊符号、标点符号、大中小。 |
文本长度过滤 |
过滤文本长度超出指定范围的内容。 |
|
乱码文本 |
过滤乱码字符占比超过阈值的文本。 |
|
汉字比率过滤 |
基于文档中汉字占比过滤数据。 |
|
目录\封面过滤 |
移除文本的目录和封面。 |
|
图注标注过滤 |
移除文本中的图标和标注信息。 |
|
参考文献过滤 |
移除文本中参考文献的信息。 |
|
数据去重 |
去重 |
移除文本中重复内容。 |
数据安全 |
数据脱敏 |
识别并对文本中电话号码、邮箱、身份证等信息进行脱敏。 |
敏感词过滤 |
识别并过滤文本中包含的涉黄、涉暴、涉政等敏感词。 |
|
通用清洗 |
正则替换 |
基于给定的正则表达式,进行文本替换。 |
正则过滤 |
基于给定的正则表达式,进行文本过滤。 |
|
数据读取 |
单栏文字版PDF文档读取 |
解析PDF文档。数据集文件类型为PDF时显示。 |
word文本读取 |
解析WORD文档,支持doc和docx格式。 |
|
html格式读取 |
解析HTML文件。 |