更新时间:2023-05-16 GMT+08:00
分享

句子拆分

概述

对文本数据按照标点符号进行句子拆分。

该算法按照既定标点符号等进行句子拆分,并将标点符号保留在句末(给定标点符号不单独成行),一篇文章拆分成多行输出。

输入

参数

子参数

参数说明

inputs

input_table

输入表表名

输入参数说明

参数名称

参数描述

参数要求

doc_id_col

标识文章的id列

string类型;必填;仅支持一列

doc_content

用于句子拆分的列名

string类型;必填;仅支持一列

delimiter

用于拆分句子的标点符号

string类型;必填;默认为",,。:“”??!!;;"

输出

参数

子参数

参数说明

output

output_port_1

输出表表名;标签为dataframe

输出表说明

列名

列名描述

备注

xx

非句子拆分列

保持原列名和内容

xx

句子拆分列

原列名和拆分后的单个句子

样例

数据输入

id

text

1

在周六的早晨,我喜欢煎个鸡蛋,煮一杯红底薏米粥,窝在榻榻米中慢慢苏醒。

2

在一九一三年的五月,这座边陲小镇迎来了带领他们走向未来一百年繁华的人,这一天注定不平凡。

配置流程

运行流程

输入参数

输出结果

id

text

1

在周六的早晨,

1

我喜欢煎个鸡蛋,

1

煮一杯红底薏米粥,

1

窝在榻榻米中慢慢苏醒。

2

在一九一三年的五月,

2

这座边陲小镇迎来了带领他们走向未来一百年繁华的人,

2

这一天注定不平凡。

分享:

    相关文档

    相关产品