更新时间:2023-05-16 GMT+08:00
分享

文本摘要

概述

抽取文本中的部分原句作为文本的摘要。

该算法按照既定标点符号等进行句子拆分,基于TextRank思想求出可代表该文档的句子作为其摘要。

输入

参数

子参数

参数说明

inputs

input_table

输入表表名

输入参数说明

参数名称

参数描述

参数要求

doc_id_col

标识文章的id列

string类型;必填;仅支持一列

sentence_col

原文本列列名

string类型;必填;仅支持一列

sentence_sep

用于拆分句子的标点符号

string类型;必填;默认为",,。::“”??!!;;"

top_n

输出的摘要句子个数

integer类型;必填;默认为3

remain_other_cols

是否保留id列和原文本列外的其他列

boolean类型;必填;默认为False

输出

参数

子参数

参数说明

output

output_port_1

输出表表名;标签为dataframe

输出表说明

列名

列描述

备注

xxx

原输入表列

如果remain_other_cols为True,则保留input_table全列;如果为False,则只保留input_table原文本列

xxx_summary

原文本列的文本摘要结果列

摘要结果列列名为原文本列列名 + "_summary"

输出摘要句子依据权重组合,并未保留在原文中顺序。

样例

数据输入

id

text

1

荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。

2

此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。

配置流程

运行流程

输入参数

输出结果

id

text

text_summary

1

荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。

未来重启的中国旅游市场会更加细分,荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,也会出现更多新的旅行需求。

2

此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。

禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,

分享:

    相关文档

    相关产品