文本类加工算子介绍
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。
平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤、数据打标四类,文本类加工算子能力清单见表1。
算子分类 |
算子名称 |
算子描述 |
---|---|---|
数据提取 |
从Word文档中提取文本,保留原文档的标题和正文等结构,不保留图片、公式、页眉、页脚,不支持嵌套表格提取。 |
|
从TXT文件中提取所有文本内容。 |
||
从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 |
||
从PDF中提取文本,转化为结构化数据,支持文本、表格、公式等内容提取。 |
||
基于标签路径提取HTML数据内容,并将其他与待提取标签路径无关的内容删除。 |
||
从电子书中提取出所有文本内容。 |
||
数据转换 |
对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。 |
|
将中文简体和中文繁体进行转换。 |
||
查找文本中携带的非标准化符号进行标准化、统一化转换。
|
||
数据条目不变下,使用自定义正则表达式替换文本内容。 示例如下:
|
||
自动识别日期、时间、星期,同时根据选择的格式进行统一转换。 |
||
对于问答排序类型的数据,通过调用大模型,选出最优的答案放到答案列表第一个,其余答案顺序不变。 |
||
对于问答排序类型的数据,通过两两配对,调用大模型进行评价得分,最终根据得分得出预排序结果。 |
||
对于单轮问答类型数据,基于问题(context字段)生成回答,返回新的单轮问答数据。 |
||
数据过滤 |
查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。
|
|
删除符合自定义正则表达式的数据。 |
||
剔除包含关键词的数据。 |
||
对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。 |
||
按照设置的文本长度,保留长度范围内的数据进行。 |
||
按照段落粒度,删除文本中的冗余信息,不改变数据条目。 例如图注表注和参考文献。 |
||
用于判断文档重复度,根据特征N值计算文档内词语按N值组合后的重复此时,可通过以下两种算法比较结果是否大于特征阈值,大于特征阈值的文档删除。
|
||
根据如下特征过滤:
|
||
该算子将文档中的标点符号作为句子分隔符,统计每句字符长度,若文档平均字符长度大于设置字符,则保留,反之则删除整篇文档。根据如下特征过滤:
|
||
词个数表示按照系统词库,对文档进行分词,分词后统计词的总个数,平均词长度为所有词的长度总和除以词总个数,两者都满足则保留当前文档。根据如下特征过滤:
|
||
按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。 |
||
按照句子的过滤粒度,删除文本中包含广告数据的句子。 |
||
过滤包含以下情况的QA对:
|
||
通过语种识别模型得到文档的语言类型,筛选所需语种的文档。 |
||
检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。 |
||
检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。 |
||
数据打标 |
通过所选规则对SFT数据质量进行检查并过滤。 |
|
通过LLM对SFT数据质量做通用语义检查和打分,并可根据打分阈值进行过滤。 |
||
通过LLM对SFT数据中的思维链做质量检查和打分,并可根据打分阈值进行过滤。 |
||
违禁内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有违禁内容的JSON结构化结果。 |
||
个人隐私内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有个人隐私内容的JSON结构化结果。 |
||
垃圾内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾内容的JSON结构化结果。 |
||
垃圾广告内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾广告内容的JSON结构化结果。 |
||
色情内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有色情内容的JSON结构化结果。 |
||
辱骂内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有辱骂内容的JSON结构化结果。 |
||
政治敏感内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有政治敏感内容的JSON结构化结果。 |
||
针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。 |
||
针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。 |
||
判断问题是否具有时效性,并给出判断原因。 |
||
针对微调数据集的回答进行质量评分,例如逻辑连贯性、事实正确性等。 |
||
针对文本进行语法质量的评估,例如相关性、规范性等。 |
SFT规则质检过滤
- 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)、问答排序”。
- 各参数说明:
- 过滤规则:通过所选规则对SFT数据质量进行检查并过滤。过滤规则包括内容不是字符串、长文本被截断、内容不完整、中英文混杂、繁简混杂、包含重复内容、包含特殊符号、括号不对齐、重复pattern、乱码符号、中英文回复不统一、敏感模型身份、没有慢思考、数学答案不正确,除了数学答案不正确这个选项外其余选项默认全部勾选,也可以选择其中部分规则。
- 是否过滤:取值是和否,默认为否。
- 数学答案列名:当过滤规则中勾选“数学答案不正确”后需要填写,即数据集中存储正确答案的列名(key值),用来判断模型回答是否正确,如果没有匹配到该字段,默认为答案不正确。当“数学答案不正确”规则未勾选,该参数可忽略。
SFT思维链质量评分
- 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)、问答排序”。
- 各参数说明:
待过滤内容类型:通过LLM对SFT数据中的思维链做质量检查和打分,并可根据打分阈值进行过滤。
- 模型:需要选择模型。
- 是否过滤:取值是和否,默认值为否。
- 阈值:取值范围在0.0~6.0之间,小于该值的样本将被过滤掉,阈值默认值为6,支持修改。
- 标准答案:界面支持用户输入标准答案的字段名,跟回答做比较,如算子无法匹配到对应的字段名,则默认为无正确答案逻辑。
- 数据判断规则:支持编辑,最大字符1000。
- 数据打分规则:支持编辑,最大字符1000。
说明:未过滤的数据会打标,打标字段包括result结果、score分数、reason原因。
问答对去重
- 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)”。
- 各参数说明:
待过滤内容类型:过滤字段支持按问题、回复进行过滤,可以都勾选,默认值为问题。过滤指标包括特征n-gram值、相似度阈值、文本最小单词数。其中特征n-gram指分词粒度,默认值为1,支持修改;相似度阈值范围0到1,默认值0.7,相似度阈值设的越小,数据过滤越多,也可能被误伤,设的越大,可能导致洗不干净;文本最小单词,按文本分词的个数,小于该个数的,就会被直接过滤,默认值为3。
违规文本检测算子
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "QQ销售股民数据,你有吗"}
打标后:
{"text":"QQ销售股民数据,你有吗","text_ban_moderation":{"suggestion":"block","details":{"confidence":1.0,"label":"violation_info","risk_level":2,"segments":[{"segment":"qq销售股民数据"},{"segment":"股民数据"},{"segment":"股民数据&销售"},{"segment":"销售股民数据"}],"suggestion":"block"}}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
个人隐私识别
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "你保存一下我的MAC地址:20-6E-D4-88-F3-98"}
打标后:
{"text":"你保存一下我的MAC地址:20-6E-D4-88-F3-98","text_pii_moderation":{"suggestion":"block","details":[{"start":33,"end":50,"length":17,"data":"20-6E-D4-88-F3-98","category":"MAC_ADDRESS"}]}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
垃圾内容检测算子
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典"}打标后:
{"text":"【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典","text_spam_moderation":{"details":[{"confidence":1.0,"label":"abuse","risk_level":2,"segments":[{"segment":"tm的"}],"suggestion":"block"}],"suggestion":"block"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
垃圾广告检测算子
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "影像档案盒 德文档案 pvc干部人事档案盒 大量出售 党员资料文件盒"}
打标后:
{"text":"影像档案盒 德文档案 pvc干部人事档案盒 大量出售 党员资料文件盒","text_ad_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'ad', 'risk_level': 1, 'segments': [{'segment': '大量出售'}], 'suggestion': 'block'}]"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
色情文本内容检测算子
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等"}
打标后:
{"text":"狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等","text_porn_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'porn_violence', 'risk_level': 2, 'segments': [{'segment': '爆操'}, {'segment': '狼友黄站导航'}], 'suggestion': 'block'}]"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
辱骂文本内容检测算子
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "谁要和你一起死要死你自己死"}
打标后:
{"text":"谁要和你一起死要死你自己死","text_abuse_moderation":{"details":[{"confidence":0.9998,"label":"abuse","risk_level":2,"segments":[],"suggestion":"block"}],"suggestion":"block"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
政治敏感检测
- 适用的数据集类型:“文本类-预训练文本”。
- 各参数说明:选“是”则是过滤算子,选否则不过滤。
- 参数配置样例:
- 过滤样例:
{"text": "但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀"}
打标后:
{"text":"但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀","text_polInfo_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'politics', 'risk_level': 3, 'segments': [{'segment': '中共当局'}], 'suggestion': 'block'}]"}}
suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。