文档首页> AI开发平台ModelArts> 开发环境> ML Studio> 预置算子说明> 模型工程> 文本> LDA

更新时间：2024-05-27 GMT+08:00

查看PDF

LDA

概述

LDA主题分析模型(Latent Dirichlet Allocation)，由Blei等人于2003年提出的无监督学习算法，可以按照概率分布的形式给出文档集中每篇文档的主题，在文本挖掘领域，应用于文本主题识别、文本分类和文本相似度计算等方面。

输入

参数	子参数	参数说明
inputs	dataframe	inputs为字典类型，dataframe为pyspark中的DataFrame类型对象。如果文本为中文则需要先以空格为分隔符对原始文本进行分词。

输出

参数	子参数	参数说明
output	P(Z)	主题概率
	P(Z\|D)	主题-文档概率
	P(D\|Z)	文档-主题概率
	P(Z\|W)	主题-词汇概率
	vocab	词汇表

参数说明

参数	是否必选	参数说明	默认值
sentence_col	是	文本列	"sentence"
topics_k	是	主题数目>=2	2
min_doc_freq	否	最小词数阈值	0
words_col	否	分词后的words列	"words"
feature_col	否	features列	"features"
raw_features_col	否	raw features列	"rawFeatures"
topic_distribution_col	否	topic distribution列	"topicDistributionCol"
max_iter	是	最大迭代次数	50
idf_or_not	否	是否使用idf	False
topic_concentration	是	超参数\eta	1.1
doc_concentration	是	超参数\alpha	1.1

样例

数据样本

id	sentence
1	ball ball fun planet galaxy
2	referendum referendum fun planet planet
3	planet planet planet galaxy ball
4	planet galaxy planet referendum ball

配置流程

运行流程

点击放大

参数设置

结果查看

P(Z)

P(Z|D)

点击放大

P(D|Z)

点击放大

P(Z|W)

vocab

父主题： 文本

上一篇：文本分类

下一篇：句子拆分

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问