文档首页> AI开发平台ModelArts> 开发环境> ML Studio> 预置算子说明> 模型工程> 文本> 停用词过滤

更新时间：2023-05-16 GMT+08:00

停用词过滤

概述

停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词，和一些无关词（通常由用户指定）过滤掉。

输入

参数	子参数	参数说明
inputs	dataframe	inputs为字典类型，dataframe为pyspark中的DataFrame类型对象。里面存放的是待过滤的语句
inputs	noise_dataframe	inputs为字典类型，noise_dataframe为pyspark中的DataFrame类型对象。里面存放的用户指定的停用词

输出

参数	子参数	参数说明
output	output_port_1	dataframe类型的过滤后的结果

参数说明

参数	是否必选	参数说明	默认值
selected_filter_column	是	需要过滤停用词的字段名称	""
noise_data_column	是	停用词所在的字段名称	""
segment_output_delimiter	是	需要过滤停用词字段内部的分隔符	" "

样例

输入数据-待过滤文本

id,sentence
1,停用词 过滤 是 自然言语处理 中 一个 重要 的 步骤 。

输入数据-停用词

noise
。
是
中
一个

配置流程

运行流程

点击放大

算法参数设置

查看结果

id,sentence
1,停用词 过滤 自然言语处理 重要 的 步骤

父主题： 文本

上一篇：文本摘要

下一篇：语义相似距离

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

停用词过滤

概述

输入

输出

参数说明

样例

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线