更新时间:2023-05-16 GMT+08:00
分享

字符串相似度topN

概述

支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度

输入

参数

子参数

参数说明

inputs

dataDF

inputs为字典类型,dataDF是输入字符串集合,数据类型是pyspark中的DataFrame类型对象

inputs

paramDF

paramDF是输入的被映射的字符串集合,数据类型是pyspark中的DataFrame类型对象

输出

DataRame

参数说明

参数名

参数类型

是否必选

参数含义

默认值

inputSelectedColName1

String

输入表被选字段名称。

当该字段为空时,dataDF中第一个string类型的字段。

mapSelectedColName2

String

map表被选字段名称。

当该字段为空时,paramDF中第一个string类型的字段。

inputAppendColNamesStr

String

输入表添加的其他字段名称,涉及多个字段以逗号分隔。

inputAppendRenameColNamesStr

String

输入表添加的其他需要rename字段映射关系。

colName1:colReName1,colName2:colReName2

mapAppendColNamesStr

String

map表添加的其他字段名称,涉及多个字段以逗号分隔。

mapAppendRenameColNamesStr

String

map表添加的其他需要rename字段映射关系。

colName1:colReName1,colName2:colReName2

outputColName

String

输出的字段名称。

dist

method

String

字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim

cosine

lambda

Double

SSK需要的参数。

0.5

k

Int

SSK需要的参数。

10

kVec

Int

SimHashHamming字符向量的大小。

64

b

Int

minhash分桶大小。

100

seed

Int

minhash随机hash函数的种子。

0

topN

Int

最相似的TopN字符串。

10

subLen

Int

粗排时,最小子串大小。

1

样例

数据样本

str1
51校园app
51校园app下载
51校园app下载官网

配置流程

运行流程

设置参数全部是默认参数。

输出结果

分享:

    相关文档

    相关产品