网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
解决方案工作台
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
数智融合计算服务 DataArtsFabric
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
解决方案工作台
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务

文本类加工算子介绍

更新时间:2025-05-16 GMT+08:00
分享

数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。

平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤、数据打标四类,文本类加工算子能力清单见表1

表1 文本类加工算子能力清单

算子分类

算子名称

算子描述

数据提取

WORD内容提取

从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

TXT内容提取

从TXT文件中提取所有文本内容。

CSV内容提取

从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

PDF内容提取

从PDF中提取文本,转化为结构化数据,支持文本、表格、公式等内容提取。

JSON内容提取

提取JSON文件中的键值对信息。

HTML内容提取

基于标签路径提取HTML数据内容,并将其他与待提取标签路径无关的内容删除。

电子书内容提取

从电子书中提取出所有文本内容。

数据转换

个人数据脱敏

对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。

中文简繁转换

将中文简体和中文繁体进行转换。

符号标准化

查找文本中携带的非标准化符号进行标准化、统一化转换。

  • 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。
  • 全角转半角:将文本中的全角字符转换为半角字符。
  • 标点符号归一化,支持统一格式的符号如下:
    • {"?": "\?\?"}
    • {"[":"〖"}
    • {"]":"〗"}
  • 数字符号归一化,例如将⓪|||⓿|统一为0.。支持统一格式的符号如下:
    • {"0.": "⓪|||⓿|"}
    • {"1.": "①|⑴|㊀|⒈|⓵|➊|❶|➀"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"2.": "②|⑵|㊁|⒉|⓶|➋|❷|➁"}
    • {"3.": "③|⑶|㊂|⒊|⓷|➌|❸|➂"}
    • {"4.": "④|⑷|㊃|⒋|⓸|➍|❹|➃"}
    • {"5.": "⑤|⑸|㊄|⒌|⓹|➎|❺|➄"}
    • {"6.": "⑥|⑹|㊅|⒍|⓺|➏|❻|➅"}
    • {"7.": "⑦|⑺|㊆|⒎|⓻|➐|❼|➆"}
    • {"8.": "⑧|⑻|㊇|⒏|⓼|➑|❽|➇"}
    • {"9.": "⑨|⑼|㊈|⒐|⓽|➒|❾|➈"}
    • {"10.": "⑩|⑽|㊉|⒑|⓾|➓|❿|➉"}

自定义正则替换

数据条目不变下,使用自定义正则表达式替换文本内容。

示例如下:

  • 去除“参考文献”以及之后的内容:\n参考文献[\s\S]*
  • 针对pdf的内容,去除“0 引言”之前的内容,引言之前的内容与知识无关:[\s\S]{0,10000}0引言
  • 针对pdf的内容,去除“1.1Java简介”之前的与知识无关的内容:[\s\S]{0,10000} 1\. 1Java简介

日期时间格式转换

自动识别日期、时间、星期,同时根据选择的格式进行统一转换。

数据过滤

异常字符过滤

查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。

  • 不可见字符,比如U+0000-U+001F。
  • 表情符六。
  • 网页标签符号<style></style>。
  • 特殊符号,比如● █ ◆。
  • 乱码和无意义的字符�����。
  • 特殊空格:[\u2000-\u2009]

自定义正则过滤

删除符合自定义正则表达式的数据。

自定义关键词过滤

剔除包含关键词的数据。

敏感词过滤

对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤。

文本长度过滤

按照设置的文本长度,保留长度范围内的数据进行。

冗余信息过滤

按照段落粒度,删除文本中的冗余信息,不改变数据条目。

例如图注表注和参考文献。

N-gram特征过滤

用于判断文档重复度,根据特征N值计算文档内词语按N值组合后的重复此时,可通过以下两种算法比较结果是否大于特征阈值,大于特征阈值的文档删除。

  • top-gram过滤:计算重复最多的gram占总长度的比例,大于特征阈值则删除。
  • gram重复率过滤:计算所有重复的gram占总长度的比例,大于特征阈值则删除。

段落特征过滤

根据如下特征过滤:

  • 段落重复率。
  • 重复段落长度占比。
  • 非中文字符占比。

句子特征过滤

该算子将文档中的标点符号作为句子分隔符,统计每句字符长度,若文档平均字符长度大于设置字符,则保留,反之则删除整篇文档。根据如下特征过滤:

  • 待保留的平均句长。

词语特征过滤

词个数表示按照系统词库,对文档进行分词,分词后统计词的总个数,平均词长度为所有词的长度总和除以词总个数,两者都满足则保留当前文档。根据如下特征过滤:

  • 待保留的词个数。
  • 待保留的平均词长度。

段落结尾不完整句子过滤

按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。

广告数据过滤

按照句子的过滤粒度,删除文本中包含广告数据的句子。

QA对过滤

过滤包含以下情况的QA对:

  • 问题不是string格式。
  • 回答为空。
  • 回答无意义。

语种过滤

通过语种识别模型得到文档的语言类型,筛选所需语种的文档。

全局文本去重

检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。

数据打标

预训练文本分类

针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。

通用质量评估

针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。

问题时效性评估

判断问题是否具有时效性,并给出判断原因。

回答质量评分

针对微调数据集的回答进行质量评分,例如逻辑连贯性、事实正确性等。

语法质量评估

针对文本进行语法质量的评估,例如相关性、规范性等。

说明:

使用数据打标的通用质量评估问题时效性评估回答质量评分语法质量评估算子前,请确保有已部署的NLP大模型,具体步骤详见创建NLP大模型部署任务

WORD内容提取

  • 适用的文件格式:“文档 > docx”
  • 各参数说明:

    待提取内容类型:从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

  • 参数配置样例:

    不需要配置参数,默认保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。

  • 提取样例:

TXT内容提取

  • 适用的文件格式:“文档 > txt”
  • 各参数说明:

    待提取内容类型:默认全文提取成一行记录,也可以选择按段落提取,根据填写的分隔符,将文本切分成多行,每个分隔符以“|”分隔分隔符最大长度100个字符。

  • 参数配置样例:

  • 提取样例:

CSV内容提取

  • 适用的文件格式:“文本 >单轮问答、单轮问答(人设)、问答排序”
  • 各参数说明:

    待提取内容类型:从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

PDF内容提取

  • 适用的文件格式:“文档 > pdf”
  • 各参数说明:

    待提取内容类型:默认保留文本、表格、公式和标题,支持选择需要保存的类型,未选择的类型将去除。

  • 参数配置样例:

  • 提取样例:

JSON内容提取

  • 适用的文件格式:“文本 >预训练文本、单轮问答、多轮问答、问答排序、优化偏好DPO”
  • 各参数说明:

    待提取内容类型:读取所有文本中的键值对信息。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

HTML内容提取

  • 适用的文件格式:“文本 > 网页”
  • 各参数说明:

    待提取内容类型:文件编码格式默认UTF-8,支持选择GB2312格式。默认提取BODY,支持用户自定义修改;可以提取多个标签,标签之间逗号分隔,例如A,B,C,即提取A或者B或者C标签的内容。

  • 参数配置样例:

  • 提取样例:

电子书内容提取

  • 适用的文件格式:“文档 > mobi/epub”。
  • 各参数说明:

    待提取内容类型:从mobi/epub格式的电子书中提取出所有文本内容。

  • 参数配置样例:

    不需要配置参数。

  • 提取样例:

个人数据脱敏

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待转换内容类型:对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,默认全部勾选,也可以选择部分。

  • 参数配置样例:

  • 转换样例:

中文简繁转换

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待转换内容类型:支持中文简体和中文繁体进行转换,过滤粒度为字符,默认转换方式为繁体转简体。

  • 参数配置样例:

  • 转换样例:

符号标准化

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待转换内容类型:支持对文本中携带的非标准化符号进行标准化、统一化转换,待标准化符号有空格、全角符号、标点符号、数字符号,默认全部勾选,过滤粒度为字符。

  • 参数配置样例:

  • 转换样例:根据映射表进行符号识别并映射。

自定义正则替换

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待转换内容类型:数据条目不变下,使用自定义正则表达式替换文本内容。

  • 参数配置样例:

  • 转换样例:

日期时间格式转换

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待转换内容类型:自动识别日期、时间、星期,同时根据选择的格式进行统一转换。转换类型包括日期格式、时间格式、星期格式,默认全都勾选,也支持选择部分进行转换。

  • 参数配置样例:

  • 转换样例:

异常字符过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。异常字符过滤类型包括不可见字符、表情符、网页标签、特殊符号、乱码字符、特殊空格,默认全都勾选,也支持选择部分进行过滤。

  • 参数配置样例:

  • 过滤样例:

自定义正则过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按自定义正则表达式进行匹配过滤,过滤粒度支持按字符、段落进行过滤,默认勾选字符。

  • 参数配置样例:

  • 过滤样例:

    比如过滤掉参考文献之后的内容。

自定义关键词过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符。待删除的关键词路径支持从obs中导入关键词,以及文本录入。

  • 参数配置样例:

  • 过滤样例:

    比如按关键词测试进行过滤。

敏感词过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:对文本中涉及黄色、暴力、政治等敏感数据进行自动检测和过滤,需要预置敏感词。过滤粒度支持按字符、段落、文档进行过滤,默认勾选字符

  • 参数配置样例:

  • 过滤样例:

文本长度过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照设置的文本长度,保留长度范围内的数据。默认待保留字符的长度范围为100-1000字符,支持修改。

  • 参数配置样例:

  • 过滤样例:

冗余信息过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照段落粒度,删除文本中的冗余信息,不改变数据条目。支持过滤的内容类型包括图注表注、参考文献,默认全都勾选,也支持选择部分。

  • 参数配置样例:

  • 过滤样例:

N-gram特征过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,可以选择top-gram过滤和gram重复率过滤,默认勾选top-gram过滤。其中top-gram过滤方式特征N值默认2,特征阈值默认0.18,gram重复率过滤方式特征N值默认2,特征阈值默认0.15,支持修改。

  • 参数配置样例:

  • 过滤样例:

段落特征过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据段落重复率、重复段落长度占比、非中文字符占比进行过滤,如果没有同时满足则过滤。默认值分别为段落重复率小于等于65%、重复段落长度占比小于等于65%、非中文字符占比1-50%,支持修改。

  • 参数配置样例:

  • 过滤样例:

句子特征过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留的平均句长进行过滤,如果不满足则过滤。待保留的平均句长默认值为大于等于10个字符,支持修改。

  • 参数配置样例:

  • 过滤样例:

词语特征过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留的词个数(默认50-100000字符)、待保留的平均词长度(默认50-100000字符)进行过滤,如果没有同时满足则过滤。支持修改默认值。

  • 参数配置样例:

  • 过滤样例:

段落结尾不完整句子过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。

  • 参数配置样例:

  • 过滤样例:

广告数据过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照句子的过滤粒度,删除文本中包含广告数据的句子。

  • 参数配置样例:

  • 过滤样例:

QA对过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:过滤问题不是string格式、回答为空、回答无意义的QA对。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:

语种过滤

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:按照文档过滤粒度,根据待保留语种、待删除阈值文档字段进行过滤,如果满足则过滤。待保留语种默认中文,支持选择英文,待删除阈值文档默认值小于0.65,支持修改。

  • 参数配置样例:

  • 过滤样例:

全局文本去重

  • 适用的文件格式:“文本类”
  • 各参数说明:

    待过滤内容类型:检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。

  • 参数配置样例:

    不需要配置参数。

  • 过滤样例:

预训练文本分类

  • 适用的文件格式:“文本类-预训练文本”
  • 各参数说明:

    待打标内容类型:针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文,默认中文。

  • 参数配置样例:

  • 打标样例:

通用质量评估

  • 适用的文件格式:“文本类-预训练文本”
  • 各参数说明:

    待打标内容类型:针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。需要选择模型、行业,其中行业支持手输。

  • 参数配置样例:

  • 打标样例:

问题时效性评估

  • 适用的文件格式:“文本类-单轮问答”
  • 各参数说明:

    待打标内容类型:判断问题是否具有时效性,并给出判断原因。需要选择模型。

  • 参数配置样例:

  • 打标样例:

回答质量评分

  • 适用的文件格式:“文本类-单轮问答”
  • 各参数说明:

    待打标内容类型:针对微调数据集的回答进行质量评分,例如逻辑连贯性、事实正确性等。需要选择模型。

  • 参数配置样例:

  • 打标样例:

语法质量评估

  • 适用的文件格式:“文本类-单轮问答”
  • 各参数说明:

    待打标内容类型:针对文本进行语法质量的评估,例如相关性、规范性等。需要选择模型。

  • 参数配置样例:

  • 打标样例:

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容