文档首页> AI开发平台ModelArts> 开发环境> ML Studio> 预置算子说明> 模型工程> 文本> 文本词向量

更新时间：2023-05-05 GMT+08:00

查看PDF

文本词向量

概述

“文本词向量”节点用于将词和句/段落映射到一个向量，可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文，并表示为向量形式，可应用于社交网络中的推荐系统、文本相似度等场景。

输入

参数	子参数	参数说明
inputs	dataframe	inputs为字典类型，dataframe为pyspark中的DataFrame类型对象，通常为分词算子的输出，可参考分词算子的使用。

输出

参数	子参数	参数说明
output	output_port_1	output为字典类型，output_port_1为pyspark中的PipelineModel类型。
output	output_port_2	output_port_2为pyspark中的DataFrame类型，为词向量。
output	output_port_3	output_port_3为pyspark中的DataFrame类型，为文本向量。

参数说明

参数	是否必选	参数说明	默认值
text_col	是	输入数据集中文本所在列的列名。	"words"
text_id	是	文本id列，用一个id代表文本。	"id"
result_col	是	结果列的列名。	"result_col"
delimiter	是	单词间的分隔符。	" "
vector_size	是	向量长度。	10
min_count	是	词出现的最小次数，低于该值的单词会被过滤。	2
num_partitions	否	分区数目。	8
step_size	是	迭代优化时的步长，学习率。	0.025
max_iter	是	最大迭代次数。	1
window_size	是	训练过程中的窗口大小。	5
max_sentence_length	否	最大句子长度。	1000

样例

样例数据

点击放大

该数据为分词算子的输入，分词算子的输出作为文本词向量的输入。

配置流程

运行流程

点击放大

参数设置

查看结果

词向量

点击放大

文本向量

点击放大

父主题： 文本

上一篇：TF-IDF

下一篇：词频统计

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问