更新时间:2023-05-16 GMT+08:00
分享

文章相似度

概述

支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

DataRame

参数说明

参数名

参数类型

是否必选

参数含义

默认值

inputSelectedColName1

String

输入表被选第一个字段名称

inputSelectedColName2

String

输入表被选第二个字段名称

inputAppendColNames

String

输入表添加的其他字段名称,

涉及多个字段以逗号分割

outputColName

String

输出的字段名称

output

method

String

字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim

cosine

样例

数据样本

doc1,doc2
浩瀚 的 太平洋 潮起 潮落,见证 风云变幻 、世事 沧桑 。伴随 世界 经济 重心 逐步 东移 , 亚太 地区 吸引 越来越多 的 全球 目光 。,浩瀚 的 太平洋 潮起 潮落,见证 风云变幻 、世事 沧桑 。伴随 世界 经济 重心 逐步 东移 , 亚太 地区 吸引 越来越多 的 全球 目光 。

配置流程

运行流程

输出结果

分享:

    相关文档

    相关产品