更新时间:2023-05-16 GMT+08:00
分享

语义相似距离

概述

计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象。用于计算距离每个向量最近的topN个向量

输出

参数

子参数

参数说明

outputs

output_port_1

指向一个pyspark的DataFrame类型对象,该对象中包含距离每个向量最近的topN个向量的结果

参数说明

参数

是否必选

参数说明

默认值

id_col

用户id所在的列名

"id"

vector_col

向量的列名列表,如col1,col2

""

topn

输出的距离最近的向量的数目。取值范围[1,+∞)

20

distance_type

距离的计算方式。取值[cosine]

"cosine"

distance_threshold

距离的阈值。当两个向量的距离小于此值时输出。取值范围(0,+∞)

1.0

leaf_size

叶子节点大小

50

样例

数据样本

id,f1,f2
1,0.1,0.2
2,0.3,0.1
3,0.7,0.2

配置流程

运行流程

参数设置

查看结果

original_id,near_id,distance,rank
3,2,0.0009438416449403242,1
3,1,0.3242753714826536,2
1,2,0.29289321881345254,1
1,3,0.3242753714826536,2
2,3,0.0009438416449403242,1
2,1,0.29289321881345254,2

分享:

    相关文档

    相关产品