文档首页> AI开发平台ModelArts> 开发环境> ML Studio> 预置算子说明> 模型工程> 文本> 关键词抽取

更新时间：2023-05-16 GMT+08:00

关键词抽取

概述

承接分词结果，获取各个文档中的关键词。

原理

该算法基于TextRank，依据的PageRank算法思想，将滑动窗口内的共现词汇对儿当做相连接的节点构建网络，计算节点的价值（即单词的重要性）并排序，数值高的单词即为该文本的关键词。

TextRank公式如下，其中V_i、V_j为网络中的节点（即单词），In(V_i)表示节点V_i的所有入点，Out(V_j)表示节点V_j的全部出点，Out(V_j)表示节点V_j的所有出点（跳转指向的点，即下一个单词），N_ji表示(V_j, V_i)的个数，S(V_i)、S(V_j)表示节点V_i、V_j的价值，d为阻尼系数，默认为0.85。

$\text{[math]}$

本算法基于pagerank思想，将共现词对儿AB的两条边(A,B)(B,A)添加进网络，相同元素的共现对儿不重复添加，(A,A)自指向共现对儿不添加。

输入

参数	子参数	参数说明
inputs	input_table	输入的包含分词后句子的数据表；必填

输入参数说明

参数名称	参数描述	参数要求
doc_id_col	文章id列	string类型；必填
doc_content	分词后的文本列	string类型；必填；多列时每列当做单独的句子处理
doc_content_sep	分词列中的词分隔符	string类型；必填；默认为" "
window_size	滑动窗口大小	integer类型；非必填；默认为整行，取值范围[1, 2147483647]
dumping_factor	TextRank算法的阻尼系数	double类型；非必填；默认0.85，取值范围(0, 1)
max_iter	TextRank算法的最大迭代次数	integer类型；非必填；默认100，取值范围[1, 5000]
epsilon	TextRank算法的收敛残差阈值	double类型；非必填；默认0.000001，取值范围(0.000001, 1)

该算子直接承接分词的结果，无过滤停用词、过滤低频词等操作。

会过滤掉doc_id_col/doc_content为空的行。

输出

参数	子参数	参数说明
output	output_port_1	输出表表名；标签为dataframe

输出表说明

列名	列名描述
docId	文章id
keywords	关键词
weight	关键词权重

样例

数据输入

id	text
1	A B C A A A A B D E C B B A A D E C F A F B E
2	O O P X O Y O Z Z Z X X Y O X X O Y Y
3	O O P X O
4	O O P X O Y

配置流程

运行流程

点击放大

输入参数

输出结果

id	keywords	weight
1	B	0.220406
1	A	0.17985
1	C	0.17985
1	D	0.140494
1	E	0.140494
2	O	0.277862
2	X	0.277862
2	P	0.148092
2	Y	0.148092
2	Z	0.148092
3	O	0.333333
3	P	0.333333
3	X	0.333333
4	O	0.366736
4	P	0.245928
4	X	0.245928
4	Y	0.141408

父主题： 文本

上一篇：PMI

下一篇：原子分词

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

关键词抽取

概述

原理

输入

输入参数说明

输出

输出表说明

样例

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线