文档首页/ AI开发平台ModelArts/ 快速入门/ 推理入门：一键完成Qwen3-32B模型部署

更新时间：2026-02-12 GMT+08:00

查看PDF

推理入门：一键完成Qwen3-32B模型部署

场景介绍

为了降低用户的使用门槛，增强用户体验，ModelArts控制台推出了一键部署案例，ModelArts提供丰富的开源模型及推理框架，可通过简单表单配置，快速开启模型部署。

本案例以Ascend-vLLM框架一键部署Qwen3-32B模型为例，介绍ModelArts一键部署服务并调用的全流程。

计费影响

部署推理服务会基于时长计费。当服务状态为“运行中”和“告警”时，实例正常运行将产生费用；不使用时，请及时停止。

前提条件

已完成华为云账号注册、实名认证及相关权限授权。具体操作，请参见一、前置准备：账号与权限。

约束限制

仅“西南-贵阳一”区域支持一键部署。

服务部署

在ModelArts管理控制台“快速入门”页面，选择“Qwen3-32B”，单击“部署”进入“创建服务”页面。

在“创建服务”页面按表1配置参数，单击“确定”。

表1 一键部署在线服务参数说明
参数	说明	本案例推荐值
模型	一键部署支持预置模型部署。更多模型介绍请见更多模型介绍。	默认值“Qwen3-32B”
服务名称	在线服务的名称，用于标识和管理在线服务。请按照界面提示规则填写。支持1-64个字符，可以包含字母、汉字、数字、连字符和下划线。	service-test
推理框架	Ascend-vLLM是一个专为华为昇腾（Ascend）NPU（神经网络处理单元）设计的高性能推理插件，它允许主流的大语言模型（LLM）在昇腾硬件上高效运行。旨在将vLLM的高性能推理能力扩展到华为昇腾AI处理器上。它通过解耦vLLM的核心架构与硬件后端，实现了对昇腾NPU的无缝支持，从而为国产化算力集群提供了强大的大模型推理解决方案。核心特性与优势高性能推理：利用昇腾NPU在FP16/BF16混合精度计算上的强劲性能，提供高吞吐量的LLM推理服务。兼容主流模型：支持在昇腾硬件上运行多种主流的大语言模型与多模态架构。	默认值“Ascend-vLLM”
资源池类型	一键部署在线服务使用公共资源池。公共资源池提供公共的计算集群，根据用户作业参数分配使用，资源按作业隔离。公共资源池经济灵活，适用于开发测试等场景。选择公共资源池部署时，由于资源有限，可能会出现资源余量不够的场景，请排队等待。	公共资源池
实例规格	选择在线服务实例的硬件资源配置。	默认值“2*Snt9b\|48vCPUs\|384GB”。
自动停止	勾选后，需设置服务自动停止时间，默认为1小时，设置时长最多为24小时。开启后，当服务运行时开始计时，运行时间超出您预设的时长，它将自动停止运行。在线服务部署后，可在控制台“模型推理>在线推理”页面单击更多>设置自动停止，重新设置自动停止。	勾选，默认值“1小时”。

在对话框中确认计费影响，单击“确定”。

部署完成后，在ModelArts管理控制台“模型推理>在线推理”页面，查看服务的基本情况。

在线推理列表中，刚部署的服务“状态”为“部署中”，当在线服务的“状态”变为“运行中”时，表示服务部署完成。

创建API KEY并绑定在线服务

当前一键部署的服务默认使用API KEY鉴权，您需要创建您自己的API KEY，绑定这个预置服务。

在ModelArts管理控制台“模型推理 > 在线推理”页面，单击“API Key授权管理”，切换到“API Key授权管理”页签。
单击“创建”，在“创建API Key”弹框中，填写API KEY信息，授权范围选择“指定在线服务”，单击“确定”。
创建API KEY后自动下载API Key，后续暂不支持手动下载，请妥善保管。

如果授权范围选择“全部在线服务”，无需执行后面的绑定服务操作。
单击API KEY操作列的“绑定”。
在“绑定服务”弹框中，勾选服务部署创建的服务，单击“确定”。

在线调试服务

在ModelArts管理控制台“模型推理 > 在线推理”页面，单击已部署完成的服务，进入详情页。
切换到“预测”页签，填写请求参数：
- 对话接口：需要在已有的URL后添加/v1/chat/completions。
- Headers：添加请求头。键使用默认值“Authorization”，值默认值中的API Key替换为创建API KEY并绑定在线服务中保存的API Key值。或删除Authorization键值对，系统将自动切换为IAM Token认证。
- Body选择“raw”，请求样例如下：
```
{
    "model": "qwen3_32b",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "你好"}
    ]
}
```

服务调用

获取访问地址和API Key

本文部署时默认使用了共享网关。部署完成后，可以在服务详情页获取调用所需的访问地址和Token。

在线服务调用地址：在ModelArts管理控制台“模型推理>在线推理”页面，单击已部署完成的服务，进入详情页，获取服务的“公网调用URL”。
模型接口：Qwen3-32B模型的模型接口为/v1/chat/completions。更多模型接口请见表2。
获取API Key：创建API KEY并绑定在线服务中保存的API Key值。

使用Curl或Python进行调用

示例代码如下。

在线服务调用地址为“公网调用URL+模型接口”。

示例代码中的API_KEY需要替换为自己已获取的API Key。

Python
Curl

import requests
import json

if __name__ == '__main__':
    url = "https://***/v2/infer/***/v1/chat/completions"  # 在线服务的调用地址=公网调用URL+模型接口
    api_key = "API_KEY"  # 把API_KEY替换成已获取的API Key

    # Send request.
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f'Bearer {api_key}'
    }
    data = {
        "model": "qwen3_32b",  # model参数，其他模型参数请见表2
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "你好"}
        ]
    }
    response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)

    # Print result.
    print(response.status_code)
    print(response.text)

curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "qwen3_32b",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "你好"}
    ]
  }'

停止或删除服务

本案例使用公共资源池创建在线服务，基于服务时长计费。当您不需要使用服务时请停止或删除服务，以免继续扣费。

图1 停止或删除服务
点击放大

表2 模型介绍
模型名称	model参数	模型接口	模型介绍
DeepSeek-V3.1	DeepSeek-V31	/v1/chat/completions	支持思考模式与非思考模式，可在对话中切换。相较于DeepSeek-V3.0，具备更快的推理速度和更强大的智能体技能。
Qwen3-8B	qwen3_8b	/v1/chat/completions	针对高频短文本任务，实现单卡并发吞吐量2.5倍提升，大幅降低单次请求成本。实现思考模式和非思考模式的有效融合，可在对话中切换模式。
Qwen3-32B	qwen3_32b	/v1/chat/completions	实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct，达到同规模业界SOTA水平。
Qwen3-30B-A3B	qwen3_30b_a3b	/v1/chat/completions	利用MoE稀疏激活技术，在昇腾NPU上以1/10的推理开销，享受30B级别的模型性能。实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-14B，达到同规模业界SOTA水平。
Qwen3-VL-30B-A3B	Qwen3-VL-30B-A3B	/v1/chat/completions	采用MoE架构，30B参数仅激活3B，视觉理解能力显著提升。多模态性能达到同规模视觉模型SOTA水平。

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问