更新时间:2026-05-20 GMT+08:00
分享

模型调用功能介绍

ModelArts平台集成了主流第三方模型如DeepSeek系列、Qwen系列等模型,提供了兼容OpenAI的API及全链路模型服务。同时支持这些模型在ModelArts平台上一键部署。本章将介绍模型支持操作及业务能力,您可以选择合适的模型完成模型应用的开发。

约束限制

仅“西南-贵阳一”区域的新版控制台支持。

预置模型介绍

ModelArts平台提供了丰富的开源大模型,在ModelArts管理控制台“资产管理 > 模型 > 预置模型”页面可以查看支持的模型及相关信息。单击模型卡片,在“模型详情”页面可以查看模型的详细介绍,例如模型的基本信息、支持的能力、推理特性等。您可以根据这些信息选择合适的模型进行训练、推理,接入到企业解决方案中。

图1 预置模型页面

图2 模型详情页面

文本生成模型

ModelArts集成了Qwen、DeepSeek、GLM、GPT-OSS类通用大语言模型,模型能力如下所示。

表1 通义千问系列模型信息

模型名称

Qwen3-8B

Qwen3-32B-64k

Qwen3-235B

Qwen3-30B-A3B

版本

V1.0.0

V1.0.0

V1.0.0

V1.0.0

model参数

qwen3_8b

qwen3_32b

qwen3-235b

qwen3_30b_a3b

请求URL

/v1/chat/completions

支持输入类型

文本

文本

文本

文本

支持输出类型

文本

文本

文本

文本

上下文长度

32K

32K

64K

32K

支持能力

  • 思考,可关闭
  • Function Call
  • 思考,可关闭
  • Function Call
  • 非思考
  • Function Call
  • 结构化输出
  • 前缀缓存
  • PD分离部署
  • 思考,可关闭
  • Function Call

调用方式

OpenAI兼容Chat API

OpenAI兼容Chat API

OpenAI兼容Chat API

OpenAI兼容Chat API

表2 DeepSeek系列模型信息

模型名称

DeepSeek-V4-Flash

DeepSeek-V3.1

版本

V1.0.0

V1.0.0

model参数

deepseek-v4-flash

DeepSeek-V31

请求URL

/v1/chat/completions

/v1/chat/completions

支持输入类型

文本

文本

支持输出类型

文本

文本

上下文长度

1M

52K

支持能力

  • 分离部署
  • Reasoning Content
  • MTP
  • Chunked Prefill
  • 图模式
  • Function Call
  • 思考,可关闭
  • Function Call
  • 结构化输出
  • 前缀缓存

调用方式

OpenAI兼容Chat API

OpenAI兼容Chat API

表3 GLM系列模型信息

模型名称

GLM-5.1

GLM-5

版本

V1.0.0

V1.0.0

model参数

glm5

GLM-5

请求URL

/v1/chat/completions

/v1/chat/completions

支持输入类型

文本

文本

支持输出类型

文本

文本

上下文长度

130K

128K

支持能力

  • 分离部署
  • Reasoning Content
  • Function Call
  • Chunked Prefill
  • Prefix Caching
  • 图模式

思考,可关闭

调用方式

OpenAI兼容Chat API

OpenAI兼容Chat API

表4 GPT-OSS系列模型信息

模型名称

GPT-OSS 120B

版本

V1.0.0

model参数

gpt-oss-120b

请求URL

/v1/chat/completions

支持输入类型

文本

支持输出类型

文本

上下文长度

128K

支持能力

  • 思考,不可关闭
  • Function Call
  • 结构化输出
  • 前缀缓存
  • PD分离部署

调用方式

OpenAI兼容Chat API

图像理解模型

表5 Qwen系列模型信息

模型名称

Qwen3-VL-30B-A3B

版本

V1.0.0

model参数

qwen3_vl_30b_a3b

请求URL

/v1/chat/completions

支持输入类型

文本+图像

支持输出类型

文本

上下文长度

32K

支持能力

  • 非思考
  • 前缀缓存

开始模型调用

在ModelArts平台部署模型后,可以使用模型提供的API接口完成模型调用。您可以在获取到API Key后,使用Curl或代码调用模型API完成推理。调用步骤如下:

  1. 获取API Key。
    1. ModelArts管理控制台“模型推理 > 在线推理”页面,单击“API Key授权管理”
    2. “API Key授权管理”页签右上角,单击“创建API Key”,填写API Key的名称、描述,按需选择授权范围,单击“确定”

      创建API Key后自动下载API Key,后续暂不支持手动下载,请妥善保管。

      • 如果授权范围选择“指定在线服务”,请执行下一步的绑定操作。
      • 如果授权范围选择“全部在线服务”,请跳过下一步的绑定操作。
    3. (可选)在“API Key授权管理”页签,单击API Key操作列的“绑定”,选择API Key要绑定的模型服务,单击“确定”
  2. 获取访问地址。

    本文部署时默认使用了共享网关。部署完成后,可以在服务详情页获取调用所需的访问地址和Token。

    • 在线服务调用地址:在ModelArts管理控制台“模型推理>在线推理”页面,单击已部署完成的服务,进入详情页,在“网络配置”区域获取服务的“公网调用URL”
    • 大模型请求URL:Qwen3-32B模型的请求URL为/v1/chat/completions。更多模型请求URL请见上文模型列表中“请求URL”配置URL名称。
  1. 使用Curl或Python进行调用

    参照该步骤代码,部署好的模型仅需要简单修改调用API的完整URL、模型参数和API Key即可完成推理。修改参数说明如下:

    • 推理API的URL:组合方式为“公网调用URL+大模型请求URL”。获取方式参考步骤2
    • API Key:获取步骤参考步骤1
    • 模型参数:上文模型列表的“model参数”即为需要调用的模型参数。下文以qwen3_32b为例,您可以按需修改。

    Python

    import requests
    import json
    
    if __name__ == '__main__':
        url = "https://***/v2/infer/***/v1/chat/completions"  # 在线服务的调用地址=公网调用URL+ 大模型请求URL
        api_key = "API_KEY"  # 把API_KEY替换成已获取的API Key
    
        # Send request.
        headers = {
            'Content-Type': 'application/json',
            'Authorization': f'Bearer {api_key}'
        }
        data = {
            "model": "qwen3_32b",  # model参数
            "messages": [
                {"role": "system", "content": "You are a helpful assistant."},
                {"role": "user", "content": "你好"}
            ]
        }
        response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)
    
        # Print result.
        print(response.status_code)
        print(response.text)

    Curl

    curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer $API_KEY" \
      -d '{
        "model": "qwen3_32b",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "你好"}
        ]
      }'

相关文档