更新时间:2023-05-05 GMT+08:00
分享

文本词向量

概述

“文本词向量”节点用于将词和句/段落映射到一个向量,可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文,并表示为向量形式,可应用于社交网络中的推荐系统、文本相似度等场景。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象,通常为分词算子的输出,可参考分词算子的使用。

输出

参数

子参数

参数说明

output

output_port_1

output为字典类型,output_port_1为pyspark中的PipelineModel类型。

output

output_port_2

output_port_2为pyspark中的DataFrame类型,为词向量。

output

output_port_3

output_port_3为pyspark中的DataFrame类型,为文本向量。

参数说明

参数

是否必选

参数说明

默认值

text_col

输入数据集中文本所在列的列名

"words"

text_id

文本id列,用一个id代表文本。

"id"

result_col

结果列的列名

"result_col"

delimiter

单词间的分隔符。

" "

vector_size

向量长度

10

min_count

词出现的最小次数,低于该值的单词会被过滤。

2

num_partitions

分区数目

8

step_size

迭代优化时的步长,学习率。

0.025

max_iter

最大迭代次数

1

window_size

训练过程中的窗口大小

5

max_sentence_length

最大句子长度

1000

样例

样例数据

该数据为分词算子的输入,分词算子的输出作为文本词向量的输入。

配置流程

运行流程

参数设置

查看结果

词向量

文本向量

分享:

    相关文档

    相关产品