文档首页/ 自然语言处理 NLP/ API参考/ API/ 自然语言处理基础服务接口说明/ 多粒度分词

更新时间：2024-01-17 GMT+08:00

多粒度分词

功能介绍

给定一个句子输入，输出不同粒度的所有单词的层次结构。

以“华为技术有限公司的总部”为例，多粒度分词得到的层次结构如下图所示。其中白色圆形节点为字符单元，蓝色圆角矩阵节点为词汇单元。

图1 多粒度分词

本API免费调用，调用限制为2次/秒。

调试

您可以在API Explorer中调试该接口。

前提条件

在使用本API之前，需要您完成服务申请和认证鉴权，具体操作流程请参见申请服务和认证鉴权章节。

用户首次使用需要先申请开通。服务只需要开通一次即可，后面使用时无需再次申请。如未开通服务，调用服务时会提示ModelArts.4204报错，请在调用服务前先进入控制台开通服务，并注意开通服务区域与调用服务的区域保持一致。

URI

URI格式

POST /v1/{project_id}/nlp-fundamental/multi-grained-segment

参数说明

表1 URI参数说明

参数名

必选

说明

project_id

是

项目ID。获取方法请参见获取项目ID。

表1 URI参数说明
参数名	必选	说明
project_id	是	项目ID。获取方法请参见获取项目ID。

请求消息

请求参数如表请求参数所示。

表2 请求参数
参数名	参数类型	必选	说明
text	String	是	待分析文本，长度为1~64，文本编码为UTF-8。
lang	String	否	支持的文本语言类型，目前支持中文（zh）和英文（en），默认为中文。
granularity	Integer	否	分词粒度，1为最细粒度，2为最粗粒度，其他情况默认返回全部粒度分词树结果。

响应消息

响应参数如表3所示。

表3 响应参数
参数名	参数类型	说明
result	Array of node objects 或 Array of strings	分词结果。默认返回全部粒度分词树结果，如果选择了分词粒度，则返回对应粒度的词汇列表结果。
error_code	String	调用失败时的错误码。具体参见错误码。调用成功时无此字段。
error_msg	String	调用失败时的错误信息。调用成功时无此字段。

表4 node字段数据结构说明
参数名	参数类型	说明
content	String	该节点对应的文本内容，并基于文本的unicode编码，做归一化处理。例如：中文标点"，"会映射到英文标点“,”。
type	String	节点类型，包括 WORD-词汇类型，CHAR-字符类型。
sub_contents	Array of node objects	子节点列表。

请求示例

请求示例1（多粒度分词，分词粒度为最粗粒度）

POST https://{endpoint}/v1/{project_id}/nlp-fundamental/multi-grained-segment

Request Header:
    Content-Type: application/json
    X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...

Request Body:
   {
       "text": "华为技术有限公司的总部",
       "lang":"zh",
       "granularity":2
    }

Python3语言请求代码示例（多粒度分词，分词粒度为最细粒度）

# -*- coding: utf-8 -*-
# 此demo仅供测试使用，建议使用sdk。需提前安装requests，执行pip install requests
import requests
import json

def nlp_demo():
    url = 'https://{endpoint}/v1/{project_id}/nlp-fundamental/multi-grained-segment'  # endpoint和project_id需替换
    token = '用户对应region的token'
    header = {
        'Content-Type': 'application/json',
        'X-Auth-Token': token
    }
    body = {
        'text': '华为技术有限公司的总部',
        'granularity': 1
    }
    resp = requests.post(url, data=json.dumps(body), headers=header)
    print(resp.json())

if __name__ == '__main__':
    nlp_demo()

Java语言请求代码示例（多粒度分词，分词粒度为最细粒度）

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;

/**
 * 此demo仅供测试使用，建议使用sdk
 */
public class NLPDemo {
    public void nlpDemo() {
        try {
            //endpoint和projectId需要替换成实际信息。
            URL url = new URL("https://{endpoint}/v1/{project_id}/nlp-fundamental/multi-grained-segment");
            String token = "对应region的token";
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("POST");
            connection.setDoInput(true);
            connection.setDoOutput(true);
            connection.addRequestProperty("Content-Type", "application/json");
            connection.addRequestProperty("X-Auth-Token", token);

            //输入参数
            String text = "华为技术有限公司的总部";
            String body = "{\"text\":\"" + text + "\",\"granularity\":1}";

            OutputStreamWriter osw = new OutputStreamWriter(connection.getOutputStream(), "UTF-8");
            osw.append(body);
            osw.flush();
            InputStream is = connection.getInputStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8"));
            while (br.ready()) {
                System.out.println(br.readLine());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        NLPDemo nlpDemo = new NLPDemo();
        nlpDemo.nlpDemo();
    }
}

请求示例2（多粒度分词）

POST https://{endpoint}/v1/{project_id}/nlp-fundamental/multi-grained-segment

Request Header:
    Content-Type: application/json
    X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...

Request Body:
   {
       "text": "华为技术有限公司的总部",
       "lang":"zh"
    }

“endpoint”、“project_id”、“token”等请求参数获取方式可参考快速入门，参数详情请见构造请求。

响应示例

成功响应示例1

{
  "result": [
    "华为技术有限公司",
    "的",
    "总部"
  ]
}

成功响应示例2

{
  "result": [
    {
      "content": "华为技术有限公司",
      "sub_contents": [
        {
          "content": "华为",
          "sub_contents": [
            {
              "content": "华",
              "type": "CHAR"
            },
            {
              "content": "为",
              "type": "CHAR"
            }
          ],
          "type": "WORD"
        },
        {
          "content": "技术",
          "sub_contents": [
            {
              "content": "技",
              "type": "CHAR"
            },
            {
              "content": "术",
              "type": "CHAR"
            }
          ],
          "type": "WORD"
        },
        {
          "content": "有限公司",
          "sub_contents": [
            {
              "content": "有限",
              "sub_contents": [
                {
                  "content": "有",
                  "type": "CHAR"
                },
                {
                  "content": "限",
                  "type": "CHAR"
                }
              ],
              "type": "WORD"
            },
            {
              "content": "公司",
              "sub_contents": [
                {
                  "content": "公",
                  "type": "CHAR"
                },
                {
                  "content": "司",
                  "type": "CHAR"
                }
              ],
              "type": "WORD"
            }
          ],
          "type": "WORD"
        }
      ],
      "type": "WORD"
    },
    {
      "content": "的",
      "sub_contents": [
        {
          "content": "的",
          "type": "CHAR"
        }
      ],
      "type": "WORD"
    },
    {
      "content": "总部",
      "sub_contents": [
        {
          "content": "总",
          "type": "CHAR"
        },
        {
          "content": "部",
          "type": "CHAR"
        }
      ],
      "type": "WORD"
    }
  ]
}

失败响应示例

{
    "error_code": "NLP.0301",
    "error_msg": "the length of the text must between 1-64"
}

状态码

状态码请参见状态码。

错误码

错误码请参见错误码。

父主题： 自然语言处理基础服务接口说明

上一篇：分词

下一篇：依存句法分析

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问