文档首页/ 魔坊（ModelArts）模型训推平台/ 最佳实践/ GLM系列模型推理部署/ 推理入门：一键完成GLM-5.1模型部署

更新时间：2026-07-04 GMT+08:00

推理入门：一键完成GLM-5.1模型部署

场景介绍

GLM-5.1是智谱清言最新代旗舰MoE基础模型w8a8量化版本，在编程与长程智能体任务上实现SOTA性能全新跃升。为方便您快速部署该模型，ModelArts控制台推出了一键部署该模型案例。借助ModelArts提供的丰富的开源模型及推理框架，您可通过简单表单配置，快速开启模型部署。GLM-5.1模型支持能力参见模型能力说明。

本案例以Ascend-vLLM框架一键部署GLM-5.1模型为例，介绍ModelArts一键部署服务并调用的全流程。

计费影响

GLM-5.1可部署在公共资源池或专属资源池。根据部署方式不同计费方式也不同。以下是两种部署方式下的计费说明：

公共资源池部署推理服务会基于时长计费。当服务状态为“运行中”和“告警”时，实例正常运行将产生费用；不使用时，请及时停止。详情请见推理部署计费项。
专属资源池部署推理服务。专属资源池的费用已在购买时支付，部署服务不再收费。专属资源池的费用请参考专属资源池计费项。

前提条件

已完成华为云账号注册、实名认证及相关权限授权。具体操作，请参见一、前置准备：账号与权限。

约束限制

推理超时时间限制：发送请求后等待系统返回首Token结果的最长等待时间，输入值必须在1到1200之间，单位秒，超过该时间仍未收到回复，请求将被自动终止。流式传输场景下，每次收到请求响应时，会重新刷新该超时时间，但系统端到端响应超时时间固定为3600秒。

服务部署

在ModelArts管理控制台的“快速入门”页面，选择“GLM-5.1”，单击“部署”进入“创建服务”页面。

推荐使用西南-贵阳一区域的新版控制台。仅ModelArts新版控制台支持模型一键部署，旧版控制台页面不支持。在旧版控制台总览页的右上角，可以单击“前往新版”切换到新版控制台页面。

在“创建服务”页面按表1配置参数，单击“确定”。

表1 一键部署在线服务参数说明
参数	说明	本案例推荐值
模型	一键部署支持预置模型部署。	默认值“GLM-5.1”
服务名称	在线服务的名称，用于标识和管理在线服务。请按照界面提示规则填写。支持1-64个字符，可以包含字母、汉字、数字、连字符和下划线。	service-test
资源池类型	一键部署在线服务支持使用公共资源池和专属资源池。公共资源池部署在线服务使用公共资源池。公共资源池提供公共的计算集群，根据用户作业参数分配使用，资源按作业隔离。公共资源池经济灵活，适用于开发测试等场景。选择公共资源池部署时，由于资源有限，可能会出现资源余量不够的场景，请排队等待。专属资源池部署在线服务使用专属资源池。专属资源池不与其他用户共享，资源更可控。核心生产业务推荐选用专属资源池，以获得独占资源保障。选择专属资源池需提前创建专属资源池，详情请见创建专属资源池。使用专属资源池部署模型时，需满足以下条件：资源池的实例规格需满足模型的卡类型和卡数的要求，可在控制台快速入门中，单击模型名称，在对应模型详情页的推理特性中查看。部署多机模型时，为保障同一节点和跨节点之间卡的网络互通：相同规格的节点必须满足同一实例规格。	公共资源池
实例规格	选择在线服务实例的硬件资源配置。资源要求4台8 * Snt9b23节点	默认值
自动停止	勾选后，需设置服务自动停止时间，默认为1小时，设置时长最多为24小时。开启后，当服务运行时开始计时，运行时间超出您预设的时长，它将自动停止运行。在线服务部署后，可在控制台“模型推理>在线推理”页面单击更多>设置自动停止，重新设置自动停止。	勾选，默认值“1小时”。

如果选择公共资源池，需要在对话框中确认计费提醒，单击“确定”后开始部署。
如果选择专属资源池，单击“确认”后开始部署。

部署完成后，在ModelArts管理控制台“模型推理 > 在线推理”页面，查看服务的基本情况。

在线推理列表中，刚部署的服务“状态”为“部署中”，当在线服务的“状态”变为“运行中”时，表示服务部署完成。

创建API KEY并绑定在线服务

当前一键部署的服务默认使用API KEY鉴权，您需要创建您自己的API KEY，绑定这个预置服务。

在ModelArts管理控制台“模型推理 > 在线推理”页面，单击“API Key授权管理”，切换到“API Key授权管理”页签。
单击“创建API Key”，在“创建API Key”弹框中，填写API KEY信息，授权范围选择“指定在线服务”，单击“确定”后自动下载和API Key同名的csv文件。打开该csv文件，查找列名为api_key对应的内容即为待使用的API Key。存放API Key的csv文件不支持二次下载，请您妥善保管该csv文件或牢记API Key内容，避免丢失。
单击API KEY操作列的“绑定”。
在“绑定服务”弹框中，勾选服务部署创建的服务，单击“确定”。如果授权范围选择“全部在线服务”，无需执行后面的绑定服务操作。

API Key是您调用部署模型API接口的凭证。如果API Key由非业务相关人员获取，非业务相关人员可使用API Key调用API，对您造成经济损失。

为避免以上可能的风险发生，请您妥善保管API Key。

在线调试服务

在ModelArts管理控制台“模型推理 > 在线推理”页面，单击已部署完成的服务，进入详情页。
切换到“预测”页签，填写请求参数：
- 对话接口：需要在已有的URL后添加/v1/chat/completions。
- Headers：添加请求头。键使用默认值“Authorization”，值默认值中的API Key替换为创建API KEY并绑定在线服务中保存的API Key值。或删除Authorization键值对，无需做其他配置，系统将自动切换为IAM Token认证。
- Body选择“raw”，model参数设置为glm5，请求样例如下：
  思考模式是默认打开，非流式回答，请求Body示例如下：
```
{
    "model": "glm5",
    "messages": [
        {
            "role": "user",
            "content": "介绍自己"
        }
    ],
    "max_tokens": 100
}
```
  打开流式对话，请求Body示例如下：
```
{
    "model": "glm5",
    "messages": [
        {
            "role": "user",
            "content": "介绍自己"
        }
    ],
    "max_tokens": 100,
    "stream": true
}
```
  关闭思考模式，请求Body示例如下：
```
{
    "model": "glm5",
    "messages": [
        {
            "role": "user",
            "content": "介绍自己"
        }
    ],
    "chat_template_kwargs": {
        "enable_thinking": false
    },
    "max_tokens": 100,
    "stream": false
}
```

服务调用

获取访问地址和API Key

本文部署时默认使用了共享网关。部署完成后，可以在服务详情页获取调用所需的访问地址。访问地址URL获取方式如下：

公网调用URL：在ModelArts管理控制台“模型推理>在线推理”页面，单击已部署完成的服务，进入详情页，获取服务的“公网调用URL”。如图1所示。
图1 获取URL
模型接口：GLM-5.1模型的模型接口为/v1/chat/completions。
获取API Key：创建API KEY并绑定在线服务中保存的API Key值。

使用Curl或Python进行调用

示例代码如下。

在线服务调用地址为“公网调用URL+模型接口”。

示例代码中的API_KEY需要替换为自己已获取的API Key。

Python

import requests
import json

if __name__ == '__main__':
    url = "https://***/v2/infer/***/v1/chat/completions"  # 在线服务的调用地址=公网调用URL+模型接口
    api_key = "API_KEY"  # 把API_KEY替换成已获取的API Key

    # Send request.
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f'Bearer {api_key}'
    }
    data = {
        "model": "glm5",  # model参数，GLM-5.1设置为glm5 
       "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "介绍自己"}
        ]
    }
    response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)

    # Print result.
    print(response.status_code)
    print(response.text)

Curl

curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "glm5",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "介绍自己"}
    ]
  }'

停止或删除服务

如果使用公共资源池创建在线服务，基于服务时长计费。如果使用专属资源池部署，占用专属资源池资源。当您不需要使用服务时请在服务列表页停止或删除服务，以免继续扣费。

图2 停止或删除服务

模型能力说明

GLM-5.1支持能力见表2。

表2 GLM-5.1能力列表
特性	GLM-5.1-W8A8	是否开启
分离部署	√	默认开启。
Reasoning Content	√	默认开启。默认开启，如果需要关闭，请求体中对应参数设置如下： "chat_template_kwargs": { "enable_thinking": false }
Function Call	√	默认开启，当前仅支持auto。
Chunked Prefill	√	默认开启。
Prefix Caching	√	默认开启。
图模式	√	默认开启。

常见问题

一键部署的在线服务如何修改请求超时时间？

在线推理-服务信息的高可用配置中，可以修改服务的“请求超时时间”，详情请见修改在线推理的服务信息。

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问