更新时间:2026-04-09 GMT+08:00
分享

推理入门:一键完成GLM-5.1模型部署

场景介绍

GLM-5.1是智谱清言最新代旗舰MoE基础模型w8a8量化版本,在编程与长程智能体任务上实现SOTA性能全新跃升。为方便您快速部署该模型,ModelArts控制台推出了一键部署该模型案例。借助ModelArts提供的丰富的开源模型及推理框架,您可通过简单表单配置,快速开启模型部署。GLM-5.1模型支持能力参见模型能力说明

本案例以Ascend-vLLM框架一键部署GLM-5.1模型为例,介绍ModelArts一键部署服务并调用的全流程。

计费影响

GLM-5.1可部署在公共资源池或专属资源池。根据部署方式不同计费方式也不同。以下是两种部署方式下的计费说明:

  • 公共资源池部署推理服务会基于时长计费。当服务状态为“运行中”“告警”时,实例正常运行将产生费用;不使用时,请及时停止。详情请见推理部署计费项
  • 专属资源池部署推理服务。专属资源池的费用已在购买时支付,部署服务不再收费。专属资源池的费用请参考专属资源池计费项

前提条件

已完成华为云账号注册、实名认证及相关权限授权。具体操作,请参见一、前置准备:账号与权限

约束限制

  • “西南-贵阳一”的控制台新版页面区域支持一键部署。
  • 推理超时时间限制:流式请求的响应时间可以超过60s,非流式请求限制60s超时。

服务部署

  1. ModelArts管理控制台“总览”页面,在GLM-5.1的banner区域,单击“一键部署”进入“创建服务”页面。

    仅西南-贵阳一控制台新版页面支持一键部署,旧版控制台页面不支持。在旧版总览页的右上角,可以单击“前往新版”切换到新版控制台页面。

    图1 一键部署GLM-5.1
  1. “创建服务”页面按表1配置参数,单击“确定”
    表1 一键部署在线服务参数说明

    参数

    说明

    本案例推荐值

    模型

    一键部署支持预置模型部署。

    默认值“GLM-5.1”

    服务名称

    在线服务的名称,用于标识和管理在线服务。请按照界面提示规则填写。支持1-64个字符,可以包含字母、汉字、数字、连字符和下划线。

    service-test

    推理框架

    Ascend-vLLM是一个专为华为昇腾(Ascend)NPU(神经网络处理单元)设计的高性能推理插件,它允许主流的大语言模型(LLM)在昇腾硬件上高效运行。旨在将vLLM的高性能推理能力扩展到华为昇腾AI处理器上。它通过解耦vLLM的核心架构与硬件后端,实现了对昇腾NPU的无缝支持,从而为国产化算力集群提供了强大的大模型推理解决方案。

    核心特性与优势

    • 高性能推理:利用昇腾NPU在FP16/BF16混合精度计算上的强劲性能,提供高吞吐量的LLM推理服务。
    • 兼容主流模型:支持在昇腾硬件上运行多种主流的大语言模型与多模态架构。

    默认值“Ascend-vLLM”

    资源池类型

    一键部署在线服务支持使用公共资源池和专属资源池。

    • 公共资源池

      部署在线服务使用公共资源池。公共资源池提供公共的计算集群,根据用户作业参数分配使用,资源按作业隔离。公共资源池经济灵活,适用于开发测试等场景。

      选择公共资源池部署时,由于资源有限,可能会出现资源余量不够的场景,请排队等待。

    • 专属资源池

      部署在线服务使用专属资源池。专属资源池不与其他用户共享,资源更可控。核心生产业务推荐选用专属资源池,以获得独占资源保障。

      选择专属资源池需提前创建专属资源池,详情请见创建专属资源池

    公共资源池/专属资源池

    实例规格

    选择在线服务实例的硬件资源配置

    默认值:

    推理单元 1 (prefill-0):8 * Snt9b23 | 320 vCPUs | 2048 GiB | ARM ;

    推理单元 2 (prefill-1):8 * Snt9b23 | 320 vCPUs | 2048 GiB | ARM ;

    推理单元 3 (decode) :2 * 8 * Snt9b23 | 320 vCPUs | 2048 GiB | ARM

    自动停止

    勾选后,需设置服务自动停止时间,默认为1小时,设置时长最多为24小时。

    开启后,当服务运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。

    在线服务部署后,可在控制台“模型推理>在线推理”页面单击更多>设置自动停止,重新设置自动停止。

    勾选,默认值“1小时”

  2. 如果选择公共资源池,需要在对话框中确认计费提醒, 单击“确定”后开始部署。

    如果选择专属资源池,单击“确认”后开始部署。

    部署完成后,在ModelArts管理控制台“模型推理 > 在线推理”页面,查看服务的基本情况。

    在线推理列表中,刚部署的服务“状态”“部署中”,当在线服务的“状态”变为“运行中”时,表示服务部署完成。

创建API KEY并绑定在线服务

当前一键部署的服务默认使用API KEY鉴权,您需要创建您自己的API KEY,绑定这个预置服务。

  1. ModelArts管理控制台“模型推理 > 在线推理”页面,单击“API Key授权管理”,切换到“API Key授权管理”页签。
  2. 单击“创建API Key”,在“创建API Key”弹框中,填写API KEY信息,授权范围选择“指定在线服务”,单击“确定”后自动下载和API Key同名的csv文件。打开该csv文件,查找列名为api_key对应的内容即为待使用的API Key。存放API Key的csv文件不支持二次下载,请您妥善保管该csv文件或牢记API Key内容,避免丢失。
  3. 单击API KEY操作列的“绑定”
  4. “绑定服务”弹框中,勾选服务部署创建的服务,单击“确定”。如果授权范围选择“全部在线服务”,无需执行后面的绑定服务操作。

API Key是您调用部署模型API接口的凭证。如果API Key由非业务相关人员获取,非业务相关人员可使用API Key调用API,对您造成经济损失。

为避免以上可能的风险发生,请您妥善保管API Key。

在线调试服务

  1. ModelArts管理控制台“模型推理 > 在线推理”页面,单击已部署完成的服务,进入详情页。
  2. 切换到“预测”页签,填写请求参数:
    • 对话接口:需要在已有的URL后添加/v1/chat/completions。
    • Headers:添加请求头。键使用默认值“Authorization”,值默认值中的API Key替换为创建API KEY并绑定在线服务中保存的API Key值。或删除Authorization键值对,无需做其他配置,系统将自动切换为IAM Token认证。
    • Body选择“raw”,model参数设置为glm5,请求样例如下:
      思考模式是默认打开,非流式回答,请求Body示例如下:
      {
          "model": "glm5",
          "messages": [
              {
                  "role": "user",
                  "content": "介绍一下自己"
              }
          ],
          "max_tokens": 100
      }

      打开流式对话,请求Body示例如下:

      {
          "model": "glm5",
          "messages": [
              {
                  "role": "user",
                  "content": "介绍一下自己"
              }
          ],
          "max_tokens": 100,
          "stream": true
      }

      关闭思考模式,请求Body示例如下:

      {
          "model": "glm5",
          "messages": [
              {
                  "role": "user",
                  "content": "介绍一下自己"
              }
          ],
          "chat_template_kwargs": {
              "enable_thinking": false
          },
          "max_tokens": 100,
          "stream": false
      }

服务调用

获取访问地址和API Key

本文部署时默认使用了共享网关。部署完成后,可以在服务详情页获取调用所需的访问地址。访问地址URL获取方式如下:

  • 公网调用URL:在ModelArts管理控制台“模型推理>在线推理”页面,单击已部署完成的服务,进入详情页,获取服务的“公网调用URL”。如图2所示。
    图2 获取URL
  • 模型接口:GLM-5.1模型的模型接口为/v1/chat/completions。
  • 获取API Key:创建API KEY并绑定在线服务中保存的API Key值。

使用Curl或Python进行调用

示例代码如下。

在线服务调用地址为“公网调用URL+模型接口”

示例代码中的API_KEY需要替换为自己已获取的API Key。

Python

import requests
import json

if __name__ == '__main__':
    url = "https://***/v2/infer/***/v1/chat/completions"  # 在线服务的调用地址=公网调用URL+模型接口
    api_key = "API_KEY"  # 把API_KEY替换成已获取的API Key

    # Send request.
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f'Bearer {api_key}'
    }
    data = {
        "model": "glm5",  # model参数,GLM-5.1设置为glm5 
       "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "介绍一下自己"}
        ]
    }
    response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)

    # Print result.
    print(response.status_code)
    print(response.text)

Curl

curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "glm5",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "介绍一下自己"}
    ]
  }'

停止或删除服务

如果使用公共资源池创建在线服务,基于服务时长计费。如果使用专属资源池部署,占用专属资源池资源。当您不需要使用服务时请停止或删除服务,以免继续扣费。

图3 停止或删除服务

模型能力说明

GLM-5.1支持能力见表2

表2 GLM-5.1能力列表

特性

GLM-5.1-W8A8

开启方式

分离部署

默认开启。

Reasoning Content

默认开启。

默认开启,如果需要关闭,请求体中对应参数设置如下:

"chat_template_kwargs": {

"enable_thinking": false

}

Function Call

默认开启,当前仅支持auto。

Chunked Prefill

默认开启。

Prefix Caching

默认开启。

图模式

默认开启。

相关文档

更多推理部署功能请见推理部署

相关文档