文档首页 > > API参考> API> 自然语言处理基础服务接口说明> 分词

分词

分享
更新时间: 2019/09/04 10:41

功能介绍

对文本进行分词处理。

API已商用,详情请参考价格说明

具体Endpoint请参见终端节点

URI

  • URI格式
    POST /v1/{project_id}/nlp-fundamental/segment
  • 参数说明
    表1 URI参数说明

    参数名

    必选

    说明

    project_id

    来自公有云的Project ID,用于资源隔离。获取方式请参见获取项目ID

请求消息

请求参数如表2所示。

表2 请求Body参数

参数名

参数类型

必选

说明

text

String

待分词文本,长度为1~512,文本编码为UTF-8。

pos_switch

Integer

是否开启词性标注功能,1为开启,0为关闭,默认为关闭。

lang

String

支持的文本语言类型,目前只支持中文,默认为zh。

criterion

String

支持的分词规范,目前支持PKU(北大分词标准)、CTB(宾州树库标准),默认为PKU。

响应消息

响应参数如表3所示。

表3 响应参数

参数名

参数类型

说明

words

Array of words

分词结果,请参见表4

error_code

String

调用失败时的错误码,具体参见错误码

调用成功时无此字段。

error_msg

String

调用失败时的错误信息。

调用成功时无此字段。

表4 Word字段数据结构说明

参数名

参数类型

说明

content

String

词汇文本。

pos

String

词汇对应的词性。详细说明请参见表5表6

表5 (PKU)pos词性说明

一类词性

二类词性

三类词性

n:名词

nr:人名

  • nr1:汉语姓氏
  • nr2:汉语名字
  • nrj:日语人名
  • nrf:音译人名

ns:地名

nsf:音译地名

nt:机构团体名

-

nz:其它专名

-

nl:名词性惯用语

-

ng:名词性语素

-

t:时间词

tg:时间词性语素

-

s:处所词

-

-

f:方位词

-

-

v:动词

vd:副动词

-

vn:名动词

-

vshi:动词“是”

-

vyou:动词“有”

-

vf:趋向动词

-

vx:形式动词

-

vi:不及物动词(内动词)

-

vl:动词性惯用语

-

vg:动词性语素

-

a:形容词

ad:副形词

-

an:名形词

-

ag:形容词性语素

-

al:形容词性惯用语

-

b:区别词

bl:区别词性惯用语

-

z:状态词

-

-

r:代词

rr:人称代词

-

rz:指示代词

  • rzt:时间指示代词
  • rzs:处所指示代词
  • rzv:谓词性指示代词

ry:疑问代词

  • ryt:时间疑问代词
  • rys:处所疑问代词
  • ryv:谓词性疑问代词

rg:代词性语素

-

m:数词

mq:数量词

-

mg:甲、乙、丙、丁、戊、己、庚、辛、壬、癸

-

q:量词

qv:动量词

-

qt:时量词

-

d:副词

-

-

p:介词

pba:介词“把”

-

pbei:介词“被”

-

c:连词

cc:并列连词

-

u:助词

uzhe:着

-

ule:了、喽

-

uguo:过

-

ude1:的、底

-

ude2:地

-

ude3:得

-

usuo:所

-

udeng:等、等等云云

-

uyy:一样、一般似的、般

-

udh:的话

-

uls:来讲、来说而言、说来

-

uzhi:之

-

ulian:连 (“连小学生都会”)

-

e:叹词

-

-

y:语气词(delete yg)

-

-

o:拟声词

-

-

h:前缀

-

-

k:后缀

-

-

x:字符串

xe:Email字符串

-

xs:微博会话分隔符

-

xm:表情符号

-

xu:网址URL

-

w:标点符号

wkz:左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <

-

wky:右括号,全角:) 〕 ] }》 】 〗〉 半角: ) ] { >

-

wyz:左引号,全角:“ ‘ 『

-

wyy:右引号,全角:” ’ 』

-

wj:句号,全角:。

-

ww:问号,全角:? 半角:?

-

wt:叹号,全角:! 半角:!

-

wd:逗号,全角:, 半角:,

-

wf:分号,全角:; 半角: ;

-

wn:顿号,全角:、

-

wm:冒号,全角:: 半角: :

-

ws:省略号,全角:…… …

-

wp:破折号,全角:—— -- ——- 半角:--- ----

-

wb:百分号千分号,全角:% ‰ 半角:%

-

wh:单位符号,全角:¥ $ > ° ℃ 半角:$

-

表6 (CTB)pos词性说明

词性

名称

示例

AD

副词

不 也 就

AS

动态助词

了 著 过

BA

把字结构

将 把

CC

并列连接词

和 与

CD

限定数量词

一 两 三

CS

从属连接词

虽然 如果 若

DEC

补语或名词化

的 之

DEG

关联或所有格

的 之

DER

补语短语“得”

DEV

方式“地”

DT

限定词

这 各 全

ETC

等等

等 等等

FW

外来词

A E B

IJ

感叹词

唉呀 哈拉

JJ

名词修饰词

大 新 小

LB

长“被”结构

被 为 受

LC

方位词

中 上 时

M

量词

个 年 美元

MSP

其他助词

所 而 来

NN

名词

经济 企业 人

NR

专有名词

中国 台湾

NT

时间名词

目前 去年

OD

数词

第一 第二 首

ON

拟声词

O

P

介词

在 对 以

PN

代词

他 我 自己

PU

标点符号

, 。

SB

短“被”结构

被 遭

SP

句末助词

了 的 吗

VA

谓词性形容词

大 多 好

VC

系动词

是 为 非

VE

主要动词“有”

有 没有 无

VV

动词

说 要 会

示例

  • 请求示例
    POST https://{endpoint}/v1/{project_id}/nlp-fundamental/segment
    Request Header:
    Content-Type: application/json
    X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...
    Request Body:
    {
        "text":"今天天气真好",
        "pos_switch":1,
        "lang":"zh",
        "criterion":"PKU"
    }
  • 响应示例
    • 成功响应示例
      {
          "words": [
              {
                  "content": "今天",
                  "pos": "t"
              },
              {
                  "content": "天气",
                  "pos": "n"
              },
              {
                  "content": "真",
                  "pos": "d"
              },
              {
                  "content": "好",
                  "pos": "a"
              }
          ]
      }
    • 失败响应示例
      {
          "error_code": "NLP.0301",
          "error_msg": "argument valid error:text.must not be blank;text.text for segment should between 1 and 512;"
      }

状态码

状态码请参见状态码

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区