更新时间:2023-05-16 GMT+08:00
分享

停用词过滤

概述

停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词,和一些无关词(通常由用户指定)过滤掉。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象。里面存放的是待过滤的语句

inputs

noise_dataframe

inputs为字典类型,noise_dataframe为pyspark中的DataFrame类型对象。里面存放的用户指定的停用词

输出

参数

子参数

参数说明

output

output_port_1

dataframe类型的过滤后的结果

参数说明

参数

是否必选

参数说明

默认值

selected_filter_column

需要过滤停用词的字段名称

""

noise_data_column

停用词所在的字段名称

""

segment_output_delimiter

需要过滤停用词字段内部的分隔符

" "

样例

输入数据-待过滤文本

id,sentence
1,停用词 过滤 是 自然言语处理 中 一个 重要 的 步骤 。

输入数据-停用词

noise
。
是
中
一个

配置流程

运行流程

算法参数设置

查看结果

id,sentence
1,停用词 过滤 自然言语处理 重要 的 步骤

分享:

    相关文档

    相关产品