快速调用预置模型
ModelArts平台集成了主流第三方模型如DeepSeek系列、Qwen系列等模型,提供了兼容OpenAI的API及全链路模型服务。同时支持这些模型在ModelArts平台上一键部署。本文介绍ModelArts支持的预置模型,以及如何一键部署模型并调用。
约束限制
预置模型、模型一键部署功能仅“西南-贵阳一”区域的新版控制台支持。
预置模型介绍
ModelArts平台提供了丰富的开源大模型,在ModelArts管理控制台“资产管理 > 模型 > 预置模型”页面可以查看支持的模型、模型类型、模型支持的操作、支持的资源类型、卡数等。
单击模型卡片,在“模型详情”页面可以查看模型的详细介绍,例如模型的基本信息、支持的能力、推理特性等。您可以根据这些信息选择合适的模型进行训练、推理,接入到企业解决方案中。
支持一键部署的模型列表
在ModelArts管理控制台“资产管理 > 模型 > 预置模型”页面的模型卡片中,可以单击“部署”,一键部署目标模型,详情请参见调用预置模型。查看模型能力请参见预置模型介绍。
| 模型系列 | 模型名称 | 模型类型 | 版本 | model参数 | 请求URL | 调用方式 |
|---|---|---|---|---|---|---|
| Qwen | Qwen3-8B | 文本生成 | V1.0.0 | qwen3_8b | /v1/chat/completions | OpenAI兼容Chat API |
| Qwen3-32B | 文本生成 | V1.0.0 | qwen3_32b | /v1/chat/completions | OpenAI兼容Chat API | |
| Qwen3-32B-64k | 文本生成 | V1.0.0 | qwen3_32b | /v1/chat/completions | OpenAI兼容Chat API | |
| Qwen3-235B | 文本生成 | V1.0.0 | qwen3-235b | /v1/chat/completions | OpenAI兼容Chat API | |
| Qwen3-30B-A3B | 文本生成 | V1.0.0 | qwen3_30b_a3b | /v1/chat/completions | OpenAI兼容Chat API | |
| Qwen3-VL-30B-A3B | 图像理解 | V1.0.0 | qwen3_vl_30b_a3b | /v1/chat/completions | OpenAI兼容Chat API | |
| DeepSeek | DeepSeek-V4-Flash | 文本生成 | V1.0.0 | deepseek-v4-flash | /v1/chat/completions | OpenAI兼容Chat API |
| DeepSeek-V3.1 | 文本生成 | V1.0.0 | DeepSeek-V31 | /v1/chat/completions | OpenAI兼容Chat API | |
| GLM | GLM-5.1 | 文本生成 | V1.0.0 | glm5 | /v1/chat/completions | OpenAI兼容Chat API |
| GLM-5 | 文本生成 | V1.0.0 | GLM-5 | /v1/chat/completions | OpenAI兼容Chat API | |
| GPT-OSS | GPT-OSS 120B | 文本生成 | V1.0.0 | gpt-oss-120b | /v1/chat/completions | OpenAI兼容Chat API |
调用预置模型
在ModelArts平台部署模型后,可以使用模型提供的API接口完成模型调用。您可以在获取到API Key后,使用Curl或代码调用模型API完成推理。调用步骤如下:
- 一键部署模型。
- 登录ModelArts管理控制台,在“资产管理 > 模型 > 预置模型”页面的模型卡片中,单击“部署”。
- 在“创建服务”面板,配置相关信息,单击“确定”。
表2 创建服务参数说明 参数
说明
示例值
模型
部署的模型名称。
Qwen3-32B
服务名称
在线服务的名称,用于标识和管理在线服务。请按照界面提示规则填写。支持1~64个字符,可以包含字母、汉字、数字、连字符和下划线。
service-test
资源池类型
支持使用公共资源池和专属资源池。
- 公共资源池
部署在线服务使用公共资源池。公共资源池提供公共的计算集群,根据用户作业参数分配使用,资源按作业隔离。公共资源池经济灵活,适用于开发测试等场景。
选择公共资源池部署时,由于资源有限,可能会出现资源余量不够的场景,请排队等待。
- 专属资源池
部署在线服务使用专属资源池。专属资源池不与其他用户共享,资源更可控。核心生产业务推荐选用专属资源池,以获得独占资源保障。
选择专属资源池需提前创建专属资源池,详情请见创建专属资源池。
公共资源池
推理单元
选择在线服务实例的硬件资源配置。
使用推荐值
自动停止
勾选后,需设置服务自动停止时间,默认为1小时,设置时长最多为24小时。
开启后,当服务运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。
在线服务部署后,可在控制台“模型推理>在线推理”页面单击更多>设置自动停止,重新设置自动停止。
勾选,默认值“1小时”。
- 公共资源池
- 获取API Key。
- 在ModelArts管理控制台“模型推理 > 在线推理”页面,单击“API Key授权管理”。
- 在“API Key授权管理”页签右上角,单击“创建API Key”,填写API Key的名称、描述,按需选择授权范围,单击“确定”。
创建API Key后自动下载API Key,后续暂不支持手动下载,请妥善保管。
- (可选)在“API Key授权管理”页签,单击API Key操作列的“绑定”,选择API Key要绑定的模型服务,单击“确定”。
- 获取访问地址。
本文部署时默认使用了共享网关。部署完成后,可以在服务详情页获取调用所需的访问地址和Token。
- 在线服务调用地址:在ModelArts管理控制台“模型推理>在线推理”页面,单击已部署完成的服务,进入详情页,在“网络配置”区域获取服务的“公网调用URL”。

- 大模型请求URL:Qwen3-32B模型的请求URL为/v1/chat/completions。更多模型请求URL请见上文模型列表中“请求URL”配置URL名称。
- 在线服务调用地址:在ModelArts管理控制台“模型推理>在线推理”页面,单击已部署完成的服务,进入详情页,在“网络配置”区域获取服务的“公网调用URL”。
- 使用Curl或Python进行调用。
参照该步骤代码,部署好的模型仅需要简单修改调用API的完整URL、模型参数和API Key即可完成推理。修改参数说明如下:
- 推理API的URL:组合方式为“公网调用URL+大模型请求URL”。获取方式参考获取访问地址。
- API Key:获取步骤参考获取API Key。
- 模型参数:上文模型列表的“model参数”即为需要调用的模型参数。下文以Qwen3-32B为例,您可以按需修改。
Python
import requests import json if __name__ == '__main__': url = "https://***/v2/infer/***/v1/chat/completions" # 在线服务的调用地址=公网调用URL+ 大模型请求URL api_key = "API_KEY" # 把API_KEY替换成已获取的API Key # Send request. headers = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {api_key}' } data = { "model": "qwen3_32b", # model参数 "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你好"} ] } response = requests.post(url, headers=headers, data=json.dumps(data), verify=False) # Print result. print(response.status_code) print(response.text)Curl
curl -X POST "https://***/v2/infer/***/v1/chat/completions" \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $API_KEY" \ -d '{ "model": "qwen3_32b", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你好"} ] }'