更新时间:2023-05-16 GMT+08:00
分享

字符串相似度

概述

支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。

输入

参数

子参数

参数说明

inputs

dataDF

inputs为字典类型,dataDF是输入字符串集合,数据类型是pyspark中的DataFrame类型对象

inputs

paramDF

paramDF是输入的被映射的字符串集合,数据类型是pyspark中的DataFrame类型对象

输出

DataRame

参数说明

参数名

参数类型

是否必选

参数含义

默认值

inputSelectedColName1

String

输入表被选第一个字段名称

inputSelectedColName2

String

输入表被选第二个字段名称

inputAppendColNamesStr

String

输入表添加的其他字段名称,涉及多个字段以逗号分隔

inputAppendRenameColNamesStr

String

输入表添加的其他需要rename字段映射关系

colName1:colReName1,colName2:colReName2

outputColName

String

输出的字段名称

distance

method

String

字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim

cosine

lambda

Double

SSK需要的参数

0.5

k

Int

SSK需要的参数

10

kVec

Int

SimHashHamming字符向量的大小

64

b

Int

minhash分桶大小

10

seed

Int

minhash随机hash函数的种子

0

样例

数据样本

str1,str2
51校园app,51校园app
51校园app,51校园app下载
51校园app,51校园app下载官网

配置流程

运行流程

设置参数

全部是默认参数。

输出结果

分享:

    相关文档

    相关产品