推理入门:一键完成Qwen3-32B模型部署
场景介绍
Qwen3-32B模型是阿里千问推出的大语言模型。实现了思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。本案例以Ascend-vLLM框架一键部署Qwen3-32B模型为例,介绍ModelArts一键部署服务并调用的全流程。
为方便您快速部署该模型,ModelArts控制台推出了一键部署该模型案例。借助ModelArts提供的丰富的开源模型及推理框架,您可通过简单表单配置,快速开启模型部署。
计费影响
Qwen3-32B可部署在公共资源池或专属资源池。根据部署方式不同计费方式也不同。以下是两种部署方式下的计费说明:
前提条件
已完成华为云账号注册、实名认证及相关权限授权。具体操作,请参见一、前置准备:账号与权限。
约束限制
- 仅“西南-贵阳一”的控制台新版页面区域支持一键部署。
- 推理超时时间限制:发送请求后等待系统返回首Token结果的最长等待时间,默认300秒,超过该时间仍未收到回复,请求将被自动终止。流式传输场景下,每次收到请求响应时,会重新刷新该超时时间,但系统端到端响应超时时间固定为 3600 秒。
服务部署
- 在ModelArts管理控制台“快速入门”页面,热门模型中选择“Qwen3-32B-64k”,单击“部署”进入“创建服务”页面。
- 在“创建服务”页面按表1配置参数,单击“确定”。
表1 一键部署在线服务参数说明 参数
说明
本案例推荐值
模型
一键部署支持预置模型部署。
默认值“Qwen3-32B-64k”
服务名称
在线服务的名称,用于标识和管理在线服务。请按照界面提示规则填写。支持1-64个字符,可以包含字母、汉字、数字、连字符和下划线。
service-test
资源池类型
一键部署在线服务支持使用公共资源池和专属资源池。
- 公共资源池
部署在线服务使用公共资源池。公共资源池提供公共的计算集群,根据用户作业参数分配使用,资源按作业隔离。公共资源池经济灵活,适用于开发测试等场景。
选择公共资源池部署时,由于资源有限,可能会出现资源余量不够的场景,请排队等待。
- 专属资源池
部署在线服务使用专属资源池。专属资源池不与其他用户共享,资源更可控。核心生产业务推荐选用专属资源池,以获得独占资源保障。
选择专属资源池需提前创建专属资源池,详情请见创建专属资源池。
使用专属资源池部署模型时,需满足以下条件:
- 资源池的实例规格需满足模型的卡类型和卡数的要求,可在控制台快速入门中,单击模型名称,在对应模型详情页的推理特性中查看。 图1 模型推理特性
- 部署多机模型时,为保障同一节点和跨节点之间卡的网络互通:相同规格的节点必须满足同一实例规格。
- 资源池的实例规格需满足模型的卡类型和卡数的要求,可在控制台快速入门中,单击模型名称,在对应模型详情页的推理特性中查看。
公共资源池
实例规格
选择在线服务实例的硬件资源配置。
默认值:2 * Snt9b3 | 48 vCPUs | 384 GiB | ARM
自动停止
勾选后,需设置服务自动停止时间,默认为1小时,设置时长最多为24小时。
开启后,当服务运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。
在线服务部署后,可在控制台“模型推理>在线推理”页面单击更多>设置自动停止,重新设置自动停止。
勾选,默认值“1小时”。
- 公共资源池
- 如果选择公共资源池,需要对话框中确认计费影响, 单击“确定”。
如果选择专属资源池,单击“确认”后开始部署。
部署完成后,在ModelArts管理控制台“模型推理>在线推理”页面,查看服务的基本情况。
在线推理列表中,刚部署的服务“状态”为“部署中”,当在线服务的“状态”变为“运行中”时,表示服务部署完成。
创建API KEY并绑定在线服务
当前一键部署的服务默认使用API KEY鉴权,您需要创建您自己的API KEY,绑定这个预置服务。
- 在ModelArts管理控制台“模型推理 > 在线推理”页面,单击“API Key授权管理”,切换到“API Key授权管理”页签。
- 单击“创建API Key”,在“创建API Key”弹框中,填写API KEY信息,授权范围选择“指定在线服务”,单击“确定”后自动下载和API Key同名的csv文件。打开该csv文件,查找列名为api_key对应的内容即为待使用的API Key。存放API Key的csv文件不支持二次下载,请您妥善保管该csv文件或牢记API Key内容,避免丢失。
- 单击API KEY操作列的“绑定”。
- 在“绑定服务”弹框中,勾选服务部署创建的服务,单击“确定”。
API Key是您调用部署模型API接口的凭证。如果API Key由非业务相关人员获取,非业务相关人员可使用API Key调用API,对您造成经济损失。
为避免以上可能的风险发生,请您妥善保管API Key。
在线调试服务
- 在ModelArts管理控制台“模型推理 > 在线推理”页面,单击已部署完成的服务,进入详情页。
- 切换到“预测”页签,填写请求参数:
- 对话接口:需要在已有的URL后添加/v1/chat/completions。
- Headers:添加请求头。键使用默认值“Authorization”,值默认值中的API Key替换为创建API KEY并绑定在线服务中保存的API Key值。或删除Authorization键值对,无需做其他配置,系统将自动切换为IAM Token认证。
- Body选择“raw”,model参数设置为qwen3_32b,请求样例如下:
{ "model": "qwen3_32b", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你好"} ] }
服务调用
获取访问地址和API Key
本文部署时默认使用了共享网关。部署完成后,可以在服务详情页获取调用所需的访问地址和Token。
- 公网调用URL:在ModelArts管理控制台“模型推理>在线推理”页面,单击已部署完成的服务,进入详情页,获取服务的“公网调用URL”。 图2 获取URL
- 模型接口:Qwen3-32B模型的模型接口为/v1/chat/completions。
- 获取API Key:创建API KEY并绑定在线服务中保存的API Key值。
使用Curl或Python进行调用
示例代码如下。
在线服务调用地址为“公网调用URL+模型接口”。
示例代码中的API_KEY需要替换为自己已获取的API Key。
import requests
import json
if __name__ == '__main__':
url = "https://***/v2/infer/***/v1/chat/completions" # 在线服务的调用地址=公网调用URL+模型接口
api_key = "API_KEY" # 把API_KEY替换成已获取的API Key
# Send request.
headers = {
'Content-Type': 'application/json',
'Authorization': f'Bearer {api_key}'
}
data = {
"model": "qwen3_32b", #
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你好"}
]
}
response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)
# Print result.
print(response.status_code)
print(response.text) curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_KEY" \
-d '{
"model": "qwen3_32b",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你好"}
]
}' 停止或删除服务
如果使用公共资源池创建在线服务,基于服务时长计费。如果使用专属资源池部署,占用专属资源池资源。当您不需要使用服务时请停止或删除服务,以免继续扣费。
模型能力说明
| 特性 | Qwen3-32B | 当前支持能力 |
|---|---|---|
| 分离部署 | 不支持 | / |
| 量化 | √(W8A8量化) | 默认开启 |
| 思维链 | √ | 默认开启,如果需要关闭,请求体中对应参数设置参考: "chat_template_kwargs": {
"enable_thinking": false
} |
| Function Call | √ | 默认开启,请求参数tool_choice仅支持auto。 在开启思维链时,不支持Function Call。 Function Call能力和模型官方保持一致。 |
| Chunked Prefill | √ | 默认关闭 |
| Prefix Caching | √ | 默认开启 |
| Guided Decoding | × | / |
| beam search | × | / |
| APC(Automatic Prefix caching) | × | / |
| 投机推理 | × | / |
说明:√表示支持,×表示不支持,/表示不涉及
相关文档
更多推理部署功能请见推理部署。