文本类加工算子介绍
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。
平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤、数据打标四类,文本类加工算子能力清单见表1。
算子分类 |
算子名称 |
算子描述 |
---|---|---|
数据提取 |
从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。 |
|
从TXT文件中提取所有文本内容。 |
||
从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 |
||
从PDF中提取文本,转化为结构化数据,支持文本、表格、公式等内容提取。 |
||
提取JSON文件中的键值对信息。 |
||
基于标签路径提取HTML数据内容,并将其他与待提取标签路径无关的内容删除。 |
||
从电子书中提取出所有文本内容。 |
||
数据转换 |
对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。 |
|
查找文本中携带的非标准化符号进行标准化、统一化转换。
|
||
数据条目不变下,使用自定义正则表达式替换文本内容。 示例如下:
|
||
自动识别日期、时间、星期,同时根据选择的格式进行统一转换。 |
||
数据过滤 |
查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。
|
|
删除符合自定义正则表达式的数据。 |
||
剔除包含关键词的数据。 |
||
对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。 |
||
按照设置的文本长度,保留长度范围内的数据进行。 |
||
按照段落粒度,删除文本中的冗余信息,不改变数据条目。 例如图注表注和参考文献。 |
||
用于判断文档重复度,根据特征N值计算文档内词语按N值组合后的重复此时,可通过以下两种算法比较结果是否大于特征阈值,大于特征阈值的文档删除。
|
||
根据如下特征过滤:
|
||
该算子将文档中的标点符号作为句子分隔符,统计每句字符长度,若文档平均字符长度大于设置字符,则保留,反之则删除整篇文档。根据如下特征过滤:
|
||
词个数表示按照系统词库,对文档进行分词,分词后统计词的总个数,平均词长度为所有词的长度总和除以词总个数,两者都满足则保留当前文档。根据如下特征过滤:
|
||
按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。 |
||
按照句子的过滤粒度,删除文本中包含广告数据的句子。 |
||
过滤包含以下情况的QA对:
|
||
通过语种识别模型得到文档的语言类型,筛选所需语种的文档。 |
||
检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。 |
||
通过LLM对SFT数据质量做通用语义检查和打分,并可根据打分阈值进行过滤。 |
||
通过所选规则对SFT数据质量进行检查并过滤。 |
||
通过LLM对SFT数据中的思维链做质量检查和打分,并可根据打分阈值进行过滤。 |
||
数据打标 |
针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。 |
|
针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。 |
||
判断问题是否具有时效性,并给出判断原因。 |
||
针对微调数据集的回答进行质量评分,例如逻辑连贯性、事实正确性等。 |
||
针对文本进行语法质量的评估,例如相关性、规范性等。 |
段落特征过滤
- 适用的文件格式:“文本类”。
- 各参数说明:
待过滤内容类型:按照文档过滤粒度,根据段落重复率、重复段落长度占比、非中文字符占比进行过滤,如果没有同时满足则过滤。默认值分别为段落重复率小于等于65%、重复段落长度占比小于等于65%、非中文字符占比1-50%,支持修改。
- 参数配置样例:
- 过滤样例:
加工前: {"text":"传说中,狐狸只对那些心地纯洁、愿望真诚的人显现。它会在月光下优雅地出现,用那双闪烁着智慧光芒的眼睛注视着来者。只有当狐狸感受到来者的真诚和纯洁,它才会开口说话,询问他们的愿望。 然而,愿望的实现并非没有代价。每一个愿望的实现都需要付出相应的代价。这个代价可能是珍贵的记忆,可能是深爱的事物,甚至可能是生命的一部分。因此,村民们在许愿之前,必须慎重考虑,是否愿意承担这样的代价。 传说中,狐狸只对那些心地纯洁、愿望真诚的人显现。它会在月光下优雅地出现,用那双闪烁着智慧光芒的眼睛注视着来者。只有当狐狸感受到来者的真诚和纯洁,它才会开口说话,询问他们的愿望。 然而,愿望的实现并非没有代价。每一个愿望的实现都需要付出相应的代价。这个代价可能是珍贵的记忆,可能是深爱的事物,甚至可能是生命的一部分。因此,村民们在许愿之前,必须慎重考虑,是否愿意承担这样的代价。"}
加工后:
SFT通用语义质量评分
- 适用的文件格式:“文本类-单轮问答、单轮问答(人设)、问答排序”。
- 各参数说明:
待过滤内容类型:通过LLM对SFT数据质量做通用语义检查和打分,并可根据打分阈值进行过滤。需要选择模型,是否过滤字段取值是和否,默认为否,阈值取值范围在0.0~10.0之间,小于该值的样本将被过滤掉。阈值默认值为6,支持修改。
- 过滤样例:
加工前: {"system":"你是一个计算达人","context";"根据给定的两个城市之间的距商,计算旅行所需的时间。起始城市:北京,目的地城市:上海,距离:1318公里。\n",“target':"根据不同出行方式,北京到上海的旅行时间不同。如果乘坐高铁,大约需要5-6小时:如果乘坐飞机,大约需要2小时左右:如果驾车,大约需要13-14小时左右。"}{"system":"你是一个问答小能手","context";"在给定的一篇文章中,找到特定关键词的出现次数。\n文章:今年世界杯期间,许多人会熬夜观看比赛。\n关键词:世界杯\n",“target":"关键词\"世界杯\"在文章中出现了1次。"}
加工后: {"context":"在给定的一篇文章中,找到特定关键词的出现次数。\n文章:今年世界杯期间,许多人会熬夜观看比赛。\n关键词:世界杯\n","filter":0.0,"qa_quality score":{"reason":"大模型正确地识别出关键词\"世界杯\"在文章中出现了 1 次,并且给出了正确的答案。","score":10.0},"system":"你是一个问答小能手","target":"关键词\"世界杯\"在文章中出现了 1 次。"}
SFT规则质检过滤
SFT思维链质量评分
预训练文本分类
- 适用的文件格式:“文本类-预训练文本”。
- 各参数说明:
- 参数配置样例:
- 打标样例:
{"fileName":"新闻打标测试.docx","text":” 本报北京3月3日电(记者徐佩玉)中国人民银行发布的今年1月份金融市场运行情况显示,1月份,我国债券市场共发行各类债券51027.5亿元。其中,国债发行10185.0亿元,地方政府债券发行5575.7亿元,金融债券发行7042.1亿元,公司信用类债券发行12791.7亿元,信贷资产支持证券发行27.3亿元,同业存单发行15147.8亿元。\n 截至1月末,我国债券市场托管余额178.2万亿元。其中,银行间市场托管余额156.9万亿元,交易所市场托管余额21.3万亿元。\n在债券市场对外开放方面,截至1月末,境外机构在中国债券市场的托管余额4.2万亿元,占中国债券市场托管余额的比重为2.3%。其中,境外机构在银行间债券市场的债券托管余额4.1万亿元:分券种看,境外机构持有国债2.0万亿元、占比48.8%,同业存单1.1万亿元、占比25.8%,政策性银行债券0.9万亿元、占20.8%。\n","pre_classification":"经济"}
通用质量评估
- 适用的文件格式:“文本类-预训练文本”。
- 各参数说明:
- 参数配置样例:
- 打标样例:
{"fileName":"新闻打标测试.docx","text":” 本报北京3月3日电(记者徐佩玉)中国人民银行发布的今年1月份金融市场运行情况显示,1月份,我国债券市场共发行各类债券51027.5亿元。其中,国债发行10185.0亿元,地方政府债券发行5575.7亿元,金融债券发行7042.1亿元,公司信用类债券发行12791.7亿元,信贷资产支持证券发行27.3亿元,同业存单发行15147.8亿元。\n 截至1月末,我国债券市场托管余额178.2万亿元。其中,银行间市场托管余额156.9万亿元,交易所市场托管余额21.3万亿元。\n在债券市场对外开放方面,截至1月末,境外机构在中国债券市场的托管余额4.2万亿元,占中国债券市场托管余额的比重为2.3%。其中,境外机构在银行间债券市场的债券托管余额4.1万亿元:分券种看,境外机构持有国债2.0万亿元、占比48.8%,同业存单1.1万亿元、占比25.8%,政策性银行债券0.9万亿元、占比20.8%。\n","generalscore":{"教育价值":"5","清洁度":"5","isIncorrect":"false","毒性":"false","丰富度":"5","流畅度":"5","knowledge":"5"}}