更新时间:2026-06-04 GMT+08:00
分享

快速调用预置模型

ModelArts平台集成了主流第三方模型如DeepSeek系列、Qwen系列等模型,提供了兼容OpenAI的API及全链路模型服务。同时支持这些模型在ModelArts平台上一键部署。本文介绍ModelArts支持的预置模型,以及如何一键部署模型并调用。

约束限制

预置模型、模型一键部署功能仅“西南-贵阳一”区域的新版控制台支持。

预置模型介绍

ModelArts平台提供了丰富的开源大模型,在ModelArts管理控制台“资产管理 > 模型 > 预置模型”页面可以查看支持的模型、模型类型、模型支持的操作、支持的资源类型、卡数等。

单击模型卡片,在“模型详情”页面可以查看模型的详细介绍,例如模型的基本信息、支持的能力、推理特性等。您可以根据这些信息选择合适的模型进行训练、推理,接入到企业解决方案中。

图1 预置模型页面

图2 模型详情页面

支持一键部署的模型列表

ModelArts管理控制台“资产管理 > 模型 > 预置模型”页面的模型卡片中,可以单击“部署”,一键部署目标模型,详情请参见调用预置模型。查看模型能力请参见预置模型介绍

表1 支持一键部署的模型列表

模型系列

模型名称

模型类型

版本

model参数

请求URL

调用方式

Qwen

Qwen3-8B

文本生成

V1.0.0

qwen3_8b

/v1/chat/completions

OpenAI兼容Chat API

Qwen3-32B

文本生成

V1.0.0

qwen3_32b

/v1/chat/completions

OpenAI兼容Chat API

Qwen3-32B-64k

文本生成

V1.0.0

qwen3_32b

/v1/chat/completions

OpenAI兼容Chat API

Qwen3-235B

文本生成

V1.0.0

qwen3-235b

/v1/chat/completions

OpenAI兼容Chat API

Qwen3-30B-A3B

文本生成

V1.0.0

qwen3_30b_a3b

/v1/chat/completions

OpenAI兼容Chat API

Qwen3-VL-30B-A3B

图像理解

V1.0.0

qwen3_vl_30b_a3b

/v1/chat/completions

OpenAI兼容Chat API

DeepSeek

DeepSeek-V4-Flash

文本生成

V1.0.0

deepseek-v4-flash

/v1/chat/completions

OpenAI兼容Chat API

DeepSeek-V3.1

文本生成

V1.0.0

DeepSeek-V31

/v1/chat/completions

OpenAI兼容Chat API

GLM

GLM-5.1

文本生成

V1.0.0

glm5

/v1/chat/completions

OpenAI兼容Chat API

GLM-5

文本生成

V1.0.0

GLM-5

/v1/chat/completions

OpenAI兼容Chat API

GPT-OSS

GPT-OSS 120B

文本生成

V1.0.0

gpt-oss-120b

/v1/chat/completions

OpenAI兼容Chat API

调用预置模型

在ModelArts平台部署模型后,可以使用模型提供的API接口完成模型调用。您可以在获取到API Key后,使用Curl或代码调用模型API完成推理。调用步骤如下:

  1. 一键部署模型。
    1. 登录ModelArts管理控制台,在“资产管理 > 模型 > 预置模型”页面的模型卡片中,单击“部署”
    2. “创建服务”面板,配置相关信息,单击“确定”
      表2 创建服务参数说明

      参数

      说明

      示例值

      模型

      部署的模型名称。

      Qwen3-32B

      服务名称

      在线服务的名称,用于标识和管理在线服务。请按照界面提示规则填写。支持1~64个字符,可以包含字母、汉字、数字、连字符和下划线。

      service-test

      资源池类型

      支持使用公共资源池和专属资源池。

      • 公共资源池

        部署在线服务使用公共资源池。公共资源池提供公共的计算集群,根据用户作业参数分配使用,资源按作业隔离。公共资源池经济灵活,适用于开发测试等场景。

        选择公共资源池部署时,由于资源有限,可能会出现资源余量不够的场景,请排队等待。

      • 专属资源池

        部署在线服务使用专属资源池。专属资源池不与其他用户共享,资源更可控。核心生产业务推荐选用专属资源池,以获得独占资源保障。

        选择专属资源池需提前创建专属资源池,详情请见创建专属资源池

      公共资源池

      推理单元

      选择在线服务实例的硬件资源配置。

      使用推荐值

      自动停止

      勾选后,需设置服务自动停止时间,默认为1小时,设置时长最多为24小时。

      开启后,当服务运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。

      在线服务部署后,可在控制台“模型推理>在线推理”页面单击更多>设置自动停止,重新设置自动停止。

      勾选,默认值“1小时”

  2. 获取API Key。
    1. ModelArts管理控制台“模型推理 > 在线推理”页面,单击“API Key授权管理”
    2. “API Key授权管理”页签右上角,单击“创建API Key”,填写API Key的名称、描述,按需选择授权范围,单击“确定”

      创建API Key后自动下载API Key,后续暂不支持手动下载,请妥善保管。

      • 如果授权范围选择“指定在线服务”,请执行下一步的绑定操作。
      • 如果授权范围选择“全部在线服务”,请跳过下一步的绑定操作。
    3. (可选)在“API Key授权管理”页签,单击API Key操作列的“绑定”,选择API Key要绑定的模型服务,单击“确定”
  3. 获取访问地址。

    本文部署时默认使用了共享网关。部署完成后,可以在服务详情页获取调用所需的访问地址和Token。

    • 在线服务调用地址:在ModelArts管理控制台“模型推理>在线推理”页面,单击已部署完成的服务,进入详情页,在“网络配置”区域获取服务的“公网调用URL”

    • 大模型请求URL:Qwen3-32B模型的请求URL为/v1/chat/completions。更多模型请求URL请见上文模型列表中“请求URL”配置URL名称。
  1. 使用Curl或Python进行调用

    参照该步骤代码,部署好的模型仅需要简单修改调用API的完整URL、模型参数和API Key即可完成推理。修改参数说明如下:

    • 推理API的URL:组合方式为“公网调用URL+大模型请求URL”。获取方式参考获取访问地址
    • API Key:获取步骤参考获取API Key
    • 模型参数:上文模型列表的“model参数”即为需要调用的模型参数。下文以Qwen3-32B为例,您可以按需修改。

    Python

    import requests
    import json
    
    if __name__ == '__main__':
        url = "https://***/v2/infer/***/v1/chat/completions"  # 在线服务的调用地址=公网调用URL+ 大模型请求URL
        api_key = "API_KEY"  # 把API_KEY替换成已获取的API Key
    
        # Send request.
        headers = {
            'Content-Type': 'application/json',
            'Authorization': f'Bearer {api_key}'
        }
        data = {
            "model": "qwen3_32b",  # model参数
            "messages": [
                {"role": "system", "content": "You are a helpful assistant."},
                {"role": "user", "content": "你好"}
            ]
        }
        response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)
    
        # Print result.
        print(response.status_code)
        print(response.text)

    Curl

    curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer $API_KEY" \
      -d '{
        "model": "qwen3_32b",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "你好"}
        ]
      }'

相关文档