更新时间:2025-08-30 GMT+08:00
分享

文本类加工算子介绍

数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。

平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤、数据打标四类,文本类加工算子能力清单见表1

表1 文本类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

WORD内容提取

从Word文档中提取文本,保留原文档的标题和正文等结构,不保留图片、公式、页眉、页脚,不支持嵌套表格提取。

TXT内容提取

从TXT文件中提取所有文本内容。

CSV内容提取

从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

PDF内容提取

从PDF中提取文本,转化为结构化数据,支持文本、表格、公式等内容提取。

HTML内容提取

基于标签路径提取HTML数据内容,并将其他与待提取标签路径无关的内容删除。

电子书内容提取

从电子书中提取出所有文本内容。

数据转换

个人数据脱敏

对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。

中文简繁转换

将中文简体和中文繁体进行转换。

符号标准化

查找文本中携带的非标准化符号进行标准化、统一化转换。

  • 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。
  • 全角转半角:将文本中的全角字符转换为半角字符。
  • 标点符号归一化,支持统一格式的符号如下:
    • {"?": "\?\?"}
    • {"[":"〖"}
    • {"]":"〗"}
  • 数字符号归一化,例如将⓪|||⓿|统一为0。支持统一格式的符号如下:
    • {"0.": "⓪|||⓿|"}
    • {"1.": "①|⑴|㊀|⒈|⓵|➊|❶|➀"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"3.": "③|⑶|㊂|⒊|⓷|➌|❸|➂"}
    • {"4.": "④|⑷|㊃|⒋|⓸|➍|❹|➃"}
    • {"5.": "⑤|⑸|㊄|⒌|⓹|➎|❺|➄"}
    • {"6.": "⑥|⑹|㊅|⒍|⓺|➏|❻|➅"}
    • {"7.": "⑦|⑺|㊆|⒎|⓻|➐|❼|➆"}
    • {"8.": "⑧|⑻|㊇|⒏|⓼|➑|❽|➇"}
    • {"9.": "⑨|⑼|㊈|⒐|⓽|➒|❾|➈"}
    • {"10.": "⑩|⑽|㊉|⒑|⓾|➓|❿|➉"}

自定义正则替换

数据条目不变下,使用自定义正则表达式替换文本内容。

示例如下:

  • 去除“参考文献”以及之后的内容:\n参考文献[\s\S]*
  • 针对pdf的内容,去除“0 引言”之前的内容,引言之前的内容与知识无关:[\s\S]{0,10000}0 引言
  • 针对pdf的内容,去除“1.1Java简介”之前的与知识无关的内容:[\s\S]{0,10000} 1\. 1Java简介

日期时间格式转换

自动识别日期、时间、星期,同时根据选择的格式进行统一转换。

问答排序N选一

对于问答排序类型的数据,通过调用大模型,选出最优的答案放到答案列表第一个,其余答案顺序不变。

问答排序预排序

对于问答排序类型的数据,通过两两配对,调用大模型进行评价得分,最终根据得分得出预排序结果。

数据蒸馏

对于单轮问答类型数据,基于问题(context字段)生成回答,返回新的单轮问答数据。

数据过滤

异常字符过滤

查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。

  • 不可见字符,比如U+0000-U+001F。
  • 表情符六。
  • 网页标签符号<style></style>。
  • 特殊符号,比如● █ ◆。
  • 乱码和无意义的字符�����。
  • 特殊空格:[\u2000-\u2009]。

自定义正则过滤

删除符合自定义正则表达式的数据。

自定义关键词过滤

剔除包含关键词的数据。

敏感词过滤

对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。

文本长度过滤

按照设置的文本长度,保留长度范围内的数据进行。

冗余信息过滤

按照段落粒度,删除文本中的冗余信息,不改变数据条目。

例如图注表注和参考文献。

N-gram特征过滤

用于判断文档重复度,根据特征N值计算文档内词语按N值组合后的重复此时,可通过以下两种算法比较结果是否大于特征阈值,大于特征阈值的文档删除。

  • top-gram过滤:计算重复最多的gram占总长度的比例,大于特征阈值则删除。
  • gram重复率过滤:计算所有重复的gram占总长度的比例,大于特征阈值则删除。

段落特征过滤

根据如下特征过滤:

  • 段落重复率。
  • 重复段落长度占比。
  • 非中文字符占比。

句子特征过滤

该算子将文档中的标点符号作为句子分隔符,统计每句字符长度,若文档平均字符长度大于设置字符,则保留,反之则删除整篇文档。根据如下特征过滤:

  • 待保留的平均句长。

词语特征过滤

词个数表示按照系统词库,对文档进行分词,分词后统计词的总个数,平均词长度为所有词的长度总和除以词总个数,两者都满足则保留当前文档。根据如下特征过滤:

  • 待保留的词个数。
  • 待保留的平均词长度。

段落结尾不完整句子过滤

按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。

广告数据过滤

按照句子的过滤粒度,删除文本中包含广告数据的句子。

QA对过滤

过滤包含以下情况的QA对:

  • 问题不是string格式。
  • 回答为空。
  • 回答无意义。

语种过滤

通过语种识别模型得到文档的语言类型,筛选所需语种的文档。

全局文本去重

检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。

问答对去重

检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。

数据打标

SFT规则质检过滤

通过所选规则对SFT数据质量进行检查并过滤。

SFT通用语义质量评分

通过LLM对SFT数据质量做通用语义检查和打分,并可根据打分阈值进行过滤。

SFT思维链质量评分

通过LLM对SFT数据中的思维链做质量检查和打分,并可根据打分阈值进行过滤。

违规文本检测算子

违禁内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有违禁内容的JSON结构化结果。

个人隐私识别

个人隐私内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有个人隐私内容的JSON结构化结果。

垃圾内容检测算子

垃圾内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾内容的JSON结构化结果。

垃圾广告检测算子

垃圾广告内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有垃圾广告内容的JSON结构化结果。

色情文本内容检测算子

色情内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有色情内容的JSON结构化结果。

辱骂文本内容检测算子

辱骂内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有辱骂内容的JSON结构化结果。

政治敏感检测

政治敏感内容检测算子通过对输入中文文本内容分析,最终返回文本中是否含有政治敏感内容的JSON结构化结果。

预训练文本分类

针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。

通用质量评估

针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。

问题时效性评估

判断问题是否具有时效性,并给出判断原因。

回答质量评分

针对微调数据集的回答进行质量评分,例如逻辑连贯性、事实正确性等。

语法质量评估

针对文本进行语法质量的评估,例如相关性、规范性等。

使用数据打标的问题时效性评估、回答质量评分、语法质量评估、通用质量评估、SFT通用语义质量评分、SFT思维链质量评分算子前,请确保有已部署的NLP大模型,具体步骤详见创建NLP大模型部署任务

WORD内容提取

  • 适用的数据集类型:“文档 > docx”。
  • 各参数说明:

    待提取内容类型:从Word文档中提取文本,保留原文档的标题和正文等结构,不保留图片、公式、页眉、页脚,不支持嵌套表格提取。

  • 参数配置样例:

    不需要配置参数,默认保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

  • 提取样例:

TXT内容提取

  • 适用的数据集类型:“文档 > txt”。
  • 各参数说明:

    待提取内容类型:默认全文提取成一行记录,也可以选择按段落提取,根据填写的分隔符,将文本切分成多行,每个分隔符以“|”分隔,分隔符最大长度100个字符。

  • 参数配置样例:

  • 提取样例:

CSV内容提取

  • 适用的数据集类型:“文本 >单轮问答、单轮问答(人设)、问答排序”。
  • 各参数说明:

    待提取内容类型:从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

PDF内容提取

  • 适用的数据集类型:“文档 > pdf”。
  • 各参数说明:

    待提取内容类型:默认保留文本、表格、公式和标题,支持选择需要保存的类型,未选择的类型将去除。

    精细化内容提取:是否支持版面分析完识别是图片的内容再次进行版面分析提取。

  • 参数配置样例:

  • 提取样例:

HTML内容提取

  • 适用的数据集类型:“文本 > 网页”。
  • 各参数说明:

    待提取内容类型:文件编码格式默认UTF-8,支持选择GB2312格式。默认提取BODY,支持用户自定义修改;可以提取多个标签,标签之间逗号分隔,例如A,B,C即提取A或者B或者C标签的内容。

  • 参数配置样例:

  • 提取样例:

电子书内容提取

  • 适用的数据集类型:“文档 > mobi/epub”。
  • 各参数说明:

    待提取内容类型:从mobi/epub格式的电子书中提取出所有文本内容。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

个人数据脱敏

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,默认全部勾选,也可以选择部分。

  • 参数配置样例:

  • 转换样例:

中文简繁转换

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:支持中文简体和中文繁体进行转换,过滤粒度为字符,默认转换方式为繁体转简体。

  • 参数配置样例:

  • 转换样例:

符号标准化

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:支持对文本中携带的非标准化符号进行标准化、统一化转换,待标准化符号有空格、全角符号、标点符号、数字符号,默认全部勾选,过滤粒度为字符。

  • 参数配置样例:

  • 转换样例:根据映射表进行符号识别并映射。

自定义正则替换

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:数据条目不变下,使用自定义正则表达式替换文本内容。

  • 参数配置样例:

  • 转换样例:

日期时间格式转换

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待转换内容类型:自动识别日期、时间、星期,同时根据选择的格式进行统一转换。转换类型包括日期格式、时间格式、星期格式,默认全都勾选,也支持选择部分进行转换。

  • 参数配置样例:

  • 转换样例:

问答排序N选一

  • 适用的数据集类型:“文本类-问答排序”。
  • 各参数说明:

    算子依赖的大模型:选择要使用的大模型,支持预置服务和我的服务。

  • 参数配置样例:

  • 转换样例:

问答排序预排序

  • 适用的数据集类型:“文本类-问答排序”。
  • 各参数说明:

    算子依赖的大模型:选择要使用的大模型,支持预置服务和我的服务。

  • 参数配置样例:

  • 转换样例:

数据蒸馏

适用的数据集类型:“文本类-单轮问答”。

各参数说明:

算子依赖的大模型:选择要使用的大模型,支持预置服务和我的服务。

参数配置样例:

转换样例:

异常字符过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。异常字符过滤类型包括不可见字符、表情符、网页标签、特殊符号、乱码字符、特殊空格,默认全都勾选,也支持选择部分进行过滤。

  • 参数配置样例:

  • 过滤样例:

自定义正则过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按自定义正则表达式进行匹配过滤,过滤粒度支持按字符、段落进行过滤,默认勾选字符。

  • 参数配置样例:

  • 过滤样例:

    比如过滤掉参考文献之后的内容。

自定义关键词过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符。待删除的关键词路径支持从obs中导入关键词,以及文本录入。

  • 参数配置样例:

  • 过滤样例:

    比如按关键词测试进行过滤。

敏感词过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤,需要预置敏感词。过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符。

  • 参数配置样例:

  • 过滤样例:

文本长度过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照设置的文本长度,保留长度范围内的数据。默认待保留字符的长度范围为100-1000字符,支持修改。

  • 参数配置样例:

  • 过滤样例:

冗余信息过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照段落粒度,删除文本中的冗余信息,不改变数据条目。支持过滤的内容类型包括图注表注、参考文献,默认全都勾选,也支持选择部分。

  • 参数配置样例:

  • 过滤样例:

N-gram特征过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,可以选择top-gram过滤和gram重复率过滤,默认勾选top-gram过滤。其中top-gram过滤方式特征N值默认2,特征阈值默认0.18,gram重复率过滤方式特征N值默认2,特征阈值默认0.15,支持修改。

  • 参数配置样例:

  • 过滤样例:

段落特征过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据段落重复率、重复段落长度占比、非中文字符占比进行过滤,如果没有同时满足则过滤。默认值分别为段落重复率小于等于65%、重复段落长度占比小于等于65%、非中文字符占比1-50%,支持修改。

  • 参数配置样例:

  • 过滤样例:

句子特征过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留的平均句长进行过滤,如果不满足则过滤。待保留的平均句长默认值为大于等于10个字符,支持修改。

  • 参数配置样例:

  • 过滤样例:

词语特征过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留的词个数(默认50-100000字符)、待保留的平均词长度(默认50-100000字符)进行过滤,如果没有同时满足则过滤。支持修改默认值。

  • 参数配置样例:

  • 过滤样例:

段落结尾不完整句子过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。

  • 参数配置样例:

  • 过滤样例:

广告数据过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,删除文本中包含广告数据的句子。

  • 参数配置样例:

  • 过滤样例:

QA对过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:过滤问题不是string格式、回答为空、回答无意义的QA对。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:

语种过滤

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留语种、待删除阈值文档字段进行过滤,如果满足则过滤。待保留语种默认中文,支持选择英文,待删除阈值文档默认值小于0.65,支持修改。

  • 参数配置样例:

  • 过滤样例:

全局文本去重

  • 适用的数据集类型:“文本类”。
  • 各参数说明:

    待过滤内容类型:检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:

SFT通用语义质量评分

  • 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)、问答排序”。
  • 各参数说明:
    1. 模型:需要选择模型。
    2. 是否过滤:字段取值是和否,默认为否,阈值取值范围在0.0~10.0之间,小于该值的样本将被过滤掉。
    3. 阈值:默认值为6,支持修改。

  • 参数配置样例:

  • 过滤样例:

    说明:未过滤的数据会打标,打标字段包括reason原因、score分数。

SFT规则质检过滤

  • 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)、问答排序”。
  • 各参数说明:
    1. 过滤规则:通过所选规则对SFT数据质量进行检查并过滤。过滤规则包括内容不是字符串、长文本被截断、内容不完整、中英文混杂、繁简混杂、包含重复内容、包含特殊符号、括号不对齐、重复pattern、乱码符号、中英文回复不统一、敏感模型身份、没有慢思考、数学答案不正确,除了数学答案不正确这个选项外其余选项默认全部勾选,也可以选择其中部分规则。
    2. 是否过滤:取值是和否,默认为否。
    3. 数学答案列名:当过滤规则中勾选“数学答案不正确”后需要填写,即数据集中存储正确答案的列名(key值),用来判断模型回答是否正确,如果没有匹配到该字段,默认为答案不正确。当“数学答案不正确”规则未勾选,该参数可忽略。
  • 参数配置样例:

  • 过滤样例:

SFT思维链质量评分

  • 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)、问答排序”。
  • 各参数说明:

    待过滤内容类型:通过LLM对SFT数据中的思维链做质量检查和打分,并可根据打分阈值进行过滤。

    1. 模型:需要选择模型。
    2. 是否过滤:取值是和否,默认值为否。
    3. 阈值:取值范围在0.0~6.0之间,小于该值的样本将被过滤掉,阈值默认值为6,支持修改。
    4. 标准答案:界面支持用户输入标准答案的字段名,跟回答做比较,如算子无法匹配到对应的字段名,则默认为无正确答案逻辑。
    5. 数据判断规则:支持编辑,最大字符1000。
    6. 数据打分规则:支持编辑,最大字符1000。
  • 参数配置样例:

  • 过滤样例:

说明:未过滤的数据会打标,打标字段包括result结果、score分数、reason原因。

问答对去重

  • 适用的数据集类型:“文本类-单轮问答、单轮问答(人设)”。
  • 各参数说明:

    待过滤内容类型:过滤字段支持按问题、回复进行过滤,可以都勾选,默认值为问题。过滤指标包括特征n-gram值、相似度阈值、文本最小单词数。其中特征n-gram指分词粒度,默认值为1,支持修改;相似度阈值范围0到1,默认值0.7,相似度阈值设的越小,数据过滤越多,也可能被误伤,设的越大,可能导致洗不干净;文本最小单词,按文本分词的个数,小于该个数的,就会被直接过滤,默认值为3。

  • 参数配置样例:

  • 过滤样例:

违规文本检测算子

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "QQ销售股民数据,你有吗"}

    打标后:

    {"text":"QQ销售股民数据,你有吗","text_ban_moderation":{"suggestion":"block","details":{"confidence":1.0,"label":"violation_info","risk_level":2,"segments":[{"segment":"qq销售股民数据"},{"segment":"股民数据"},{"segment":"股民数据&销售"},{"segment":"销售股民数据"}],"suggestion":"block"}}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

个人隐私识别

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "你保存一下我的MAC地址:20-6E-D4-88-F3-98"}

    打标后:

    {"text":"你保存一下我的MAC地址:20-6E-D4-88-F3-98","text_pii_moderation":{"suggestion":"block","details":[{"start":33,"end":50,"length":17,"data":"20-6E-D4-88-F3-98","category":"MAC_ADDRESS"}]}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

垃圾内容检测算子

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典"}打标后:

    {"text":"【开远假证848777596_qq合肥假证uhc0tm】什么意思_英语开远假证848777596_qq合肥假证uhc0tm的翻译_音标_读音_用法_例句_在线翻译_有道词典","text_spam_moderation":{"details":[{"confidence":1.0,"label":"abuse","risk_level":2,"segments":[{"segment":"tm的"}],"suggestion":"block"}],"suggestion":"block"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

垃圾广告检测算子

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "影像档案盒 德文档案 pvc干部人事档案盒 大量出售 党员资料文件盒"}

    打标后:

    {"text":"影像档案盒 德文档案 pvc干部人事档案盒 大量出售 党员资料文件盒","text_ad_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'ad', 'risk_level': 1, 'segments': [{'segment': '大量出售'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

色情文本内容检测算子

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等"}

    打标后:

    {"text":"狼友黄站导航,现在就来快乐爆操,让的生活充满色情和刺激,还等","text_porn_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'porn_violence', 'risk_level': 2, 'segments': [{'segment': '爆操'}, {'segment': '狼友黄站导航'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

辱骂文本内容检测算子

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "谁要和你一起死要死你自己死"}

    打标后:

    {"text":"谁要和你一起死要死你自己死","text_abuse_moderation":{"details":[{"confidence":0.9998,"label":"abuse","risk_level":2,"segments":[],"suggestion":"block"}],"suggestion":"block"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

政治敏感检测

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:选“是”则是过滤算子,选否则不过滤。
  • 参数配置样例:

  • 过滤样例:

    打标前:

    {"text": "但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀"}

    打标后:

    {"text":"但中共当局对这些网络质疑声音从来不屑于解释,而是直接封杀","text_polInfo_moderation":{"suggestion":"block","details":"[{'confidence': 1.0, 'label': 'politics', 'risk_level': 3, 'segments': [{'segment': '中共当局'}], 'suggestion': 'block'}]"}}

    suggestion字段表示对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。

预训练文本分类

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:

    待打标内容类型:针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文,默认中文。

  • 参数配置样例:

  • 打标样例:

通用质量评估

  • 适用的数据集类型:“文本类-预训练文本”。
  • 各参数说明:

    待打标内容类型:针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。需要选择模型、行业,其中行业支持手输。最高分为5分。

  • 参数配置样例:

  • 打标样例:

问题时效性评估

  • 适用的数据集类型:“文本类-单轮问答”。
  • 各参数说明:

    待打标内容类型:判断问题是否具有时效性,并给出判断原因。需要选择模型。分值只有0和1,1表示具有时效性,0表示不具有时效性。

  • 参数配置样例:

  • 打标样例:

回答质量评分

  • 适用的数据集类型:“文本类-单轮问答”。
  • 各参数说明:

    待打标内容类型:针对微调数据集的回答进行质量评分,例如逻辑连贯性、事实正确性等。需要选择模型。

  • 参数配置样例:

  • 打标样例:

语法质量评估

  • 适用的数据集类型:“文本类-单轮问答”。
  • 各参数说明:

    待打标内容类型:针对文本进行语法质量的评估,例如相关性、规范性等。需要选择模型。

  • 参数配置样例:

  • 打标样例:

相关文档