更新时间:2025-05-08 GMT+08:00

自然语言处理

自然语言处理连接器用于对接华为云自然语言处理服务。

自然语言处理(Natural Language Processing,简称NLP)是一款基于人工智能技术,针对各类企业及开发者提供的用于文本分析及挖掘的云服务,旨在帮助用户高效的处理文本。

创建自然语言处理连接

  1. 登录新版ROMA Connect控制台。
  2. 在左侧导航栏选择“连接器”,在连接器页面单击“新建连接”。
  3. 选择“自然语言处理“连接器。
  4. 在弹窗中配置连接信息,完成后单击“确定“。

    参数

    说明

    连接名称

    填写连接器实例名称。

    访问密钥ID

    当前账号的AK(Access Key ID)。请参考访问密钥获取AK,如果已生成过AK/SK,找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。

    秘密访问密钥

    当前账号的SK(Secret Access Key)。请参考访问密钥获取SK,如果已生成过AK/SK,找到原来已下载的AK/SK文件,文件名一般为credentials.csv。

    描述

    填写连接器的描述信息,用于识别不同的连接器。

支持的动作

  • 文本相似度(高级版)
  • 命名实体识别(领域版)
  • 多粒度分词
  • 文档翻译状态查询
  • 文档翻译
  • 语种识别
  • 文本翻译
  • 意图理解
  • 文档分类
  • 实体级情感分析
  • 属性级情感分析(高级版)
  • 属性级情感分析
  • 情感分析(领域版)
  • 文本分类
  • 文本摘要(领域版)
  • 成分句法分析
  • 诗歌生成

配置参数

表1 文本相似度(高级版)

参数

说明

project_id

项目ID。

region_id

区域ID。

text1

待计算文本1,长度1~512,文本编码为UTF-8。

text2

待计算文本2,长度1~512,文本编码为UTF-8。

lang

支持的文本语言类型,目前只支持zh(中文),默认为zh。

表2 命名实体识别(领域版)

参数

说明

project_id

项目ID。

region_id

区域ID。

text

待分析文本,长度为1~512,文本编码为UTF-8。

lang

支持的文本语言类型,目前只支持zh(中文),默认为zh。

domain

支持的领域类型,目前支持通用(general)领域、商务(business)领域、娱乐(entertainment)领域,默认为general。

表3 多粒度分词

参数

说明

project_id

项目ID。

region_id

区域ID。

text

待分词文本,长度为1~64,文本编码为UTF-8。

lang

支持的文本语言类型,目前只支持zh(中文),默认为zh。

granularity

分词粒度,1为最细粒度,2为最粗粒度,其它情况默认返回全部粒度分词树结果。

表4 文档翻译状态查询

参数

说明

project_id

项目ID。

job_id

文档翻译任务标识符。通过文档翻译接口获取。

region_id

区域ID。

表5 文档翻译

参数

说明

project_id

项目ID。

region_id

区域ID。

url

存放在OBS的文档文件路径,私密文件推荐使用临时授权URL调用服务,如何获取OBS文件URL和临时授权URL请参见配置OBS访问权限。OBS的region要和请求服务的region保持一致,region不一致则OBS不可用,即使obs是公开访问权限。

from

翻译原语言,文档翻译服务当前仅支持中英互译。

to

翻译目标语言,文档翻译服务当前仅支持中英互译。

type

文档格式,当前仅支持翻译“docx”、“pptx”和“txt”格式的文档。

表6 语种识别

参数

说明

project_id

项目ID。

region_id

区域ID。

text

需要识别语种的文本。仅支持utf-8编码,长度不超过2000字符。

表7 文本翻译

参数

说明

project_id

项目ID。

region_id

区域ID。

text

待翻译文本,仅支持utf-8编码,长度不超过2000字符。

from

翻译原语言,具体取值见支持的语言列表:阿拉伯语 ar;德语 de;俄语 ru;法语 fr;韩语 ko;葡萄牙语 pt;日语 ja;泰语 th;土耳其语 tr;西班牙语 es;英语 en;越南语 vi;中文(简体) zh;中文(繁体) zh-tw。

自动检测输入语种并翻译成目标语种:auto,您需要指定目标语种。

to

翻译目标语言,具体取值见支持的语言列表:阿拉伯语 ar;德语 de;俄语 ru;法语 fr;韩语 ko;葡萄牙语 pt;日语 ja;泰语 th;土耳其语 tr;西班牙语 es;英语 en;越南语 vi;中文(简体) zh;中文(繁体) zh-tw。

scene

默认为“common”,当前只有通用场景。

表8 意图理解

参数

说明

project_id

项目ID。

region_id

区域ID。

lang

支持的文本语言类型,目前只支持zh(中文),默认为zh。

text

待分析文本列表,UTF-8编码,限定32个字符以内,文本长度超过32个字符时,只检测前32个字符。

表9 文档分类

参数

说明

project_id

项目ID。

region_id

区域ID。

conten

输入的文档,最大长度10000, 长度超过10000字符截取前10000个字符。

lang

支持的文本语言类型,目前只支持zh(中文),默认为zh。

表10 实体级情感分析

参数

说明

project_id

项目ID。

region_id

区域ID。

conten

请求文本。文本编码要求为utf-8,仅支持中文实体情感分析。 限定content+entity长度为512以内,长度超过512时,只检测前512个字符。

entity

请求实体。文本编码要求为utf-8.仅支持中文实体情感分析。 限定content+entity长度为512以内,长度超过512时,只检测前512个字符。

type

取值如下:

3:金融领域。

表11 属性级情感分析(高级版)

参数

说明

project_id

项目ID。

region_id

区域ID。

conten

待分析文本。文本编码要求为utf-8,仅支持中文。 限定4096个字符以内,建议文本长度300个字符以内。

type

取值如下:

  • 1:手机领域;
  • 2:汽车领域。
表12 属性级情感分析

参数

说明

project_id

项目ID。

region_id

区域ID。

conten

待分析文本。文本编码要求为utf-8,仅支持中文。 限定4096个字符以内,建议文本长度300个字符以内。

type

取值如下:

1:手机领域。

表13 情感分析(领域版)

参数

说明

project_id

项目ID。

region_id

区域ID。

conten

待分析文本。文本编码要求为utf-8。仅支持中文情感分析。 type为1(电商领域评论)时,限定200个字符以内,文本长度超过200个字符时,只检测前200个字符。 type为2(汽车领域评论)时,限定400个字符以内,文本长度超过400个字符时,只检测前400个字符。

type

取值如下:

  • 0:自适应领域,根据输入内容自动识别适应领域。
  • 1:电商领域,适用于电商领域评论。
  • 2:汽车领域,适用于汽车领域评论。
表14 文本分类

参数

说明

project_id

项目ID。

region_id

区域ID。

conten

待分析文本。文本编码要求为utf-8。 限定400个字符以内,文本长度超过400个字符时,只检测前400个字符。

domain

取值如下:

1:广告检测。

表15 文本摘要(领域版)

参数

说明

project_id

项目ID。

region_id

区域ID。

length_limit

生成摘要的长度限制。length_limit > 1,则返回结果为字数不小于该值且最接近该值的摘要。 0 <= length_limit <= 1,则返回结果为长度百分比不小于该值且最接近该值的摘要。

title

文本标题(目前仅支持UTF-8编码),长度不超过1000字。

lang

支持的文本语言类型,目前只支持zh(中文)。

conten

文本正文(目前仅支持UTF-8编码),长度不超过10000字。

type

支持的领域类型,取值如下:

0:通用领域。目前只支持通用领域,默认为通用领域。

表16 成分句法分析

参数

说明

project_id

项目ID。

region_id

区域ID。

lang

支持的文本语言类型,目前只支持zh(中文)。

text

待分析文本,长度为1~32。

表17 诗歌生成

参数

说明

project_id

项目ID。

region_id

区域ID。

title

诗歌标题,目前仅支持UTF-8编码,仅支持中文,长度为1-10。

type

诗歌类型,取值如下:

  • 0:五言绝句;
  • 1:七言绝句;
  • 2:五言律诗;
  • 3:七言律诗。

acrostic

藏头诗,取值如下:

  • true:藏头诗;
  • false:非藏头诗; 默认取值为false。