更新时间:2025-06-12 GMT+08:00
分享

发起调用请求

功能介绍

调用已部署的大模型推理实例,发起推理请求。此接口为同步接口,无配套使用接口。该接口会有内容审核,对于不符合要求的内容会进行屏蔽,用户可以选择是否关闭。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST https://localhost.com/v1/workspaces/{workspace_id}/services/instances/{instance_id}/invocations

表1 路径参数

参数

是否必选

参数类型

描述

workspace_id

String

  • 参数解释:工作空间的ID。

  • 约束限制:不涉及。

  • 取值范围:长度为[1,36]的字母、数字、中划线(-)的组合。

  • 默认取值:不涉及。

instance_id

String

  • 参数解释:实例的ID。获取方法,请参见获取推理实例ID

  • 约束限制:不涉及。

  • 取值范围:长度为[1,36]的字母、数字、中划线(-)的组合。

  • 默认取值:不涉及。

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

  • 参数解释:租户token。

  • 约束限制:不涉及。

  • 取值范围:不涉及。

  • 默认取值:不涉及。

表3 请求Body参数

参数

是否必选

参数类型

描述

messages

Array of ChatMessage objects

  • 参数解释:消息。

  • 约束限制:不涉及。

  • 取值范围:[1,100]。

  • 默认取值:不涉及。

max_tokens

Integer

  • 参数解释:要在聊天完成中生成的最大token数。

  • 约束限制:输入token和生成token的总长度受模型的上下文长度限制。

  • 取值范围:不涉及。

  • 默认取值:不涉及。

temperature

Double

  • 参数解释:Temperature是用于调整随机程度的数字。介于0和2之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使输出更集中和确定性。

  • 约束限制:不涉及。

  • 取值范围:[0,2]。

  • 默认取值:1。

top_p

Double

  • 参数解释:核心采样,用于控制AI模型根据累积概率考虑的标记范围。

  • 约束限制:不涉及。

  • 取值范围:[0,1]。

  • 默认取值:1。

stream

Boolean

  • 参数解释:是否支持流式返回。如果支持,则消息按行返回(交互式效果)。如果不支持,则消息一次性全部返回。

  • 约束限制:不涉及。

  • 取值范围:true, false。

  • 默认取值:不涉及。

frequency_penalty

Double

  • 参数解释:频率惩罚,控制文本中词汇的重复度,避免生成文本中某些词汇或短语出现过于频繁。正值会根据它们在文本中的现有频率惩罚新令牌,从而降低模型逐字重复同一行的可能性。

  • 约束限制:不涉及

  • 取值范围:[-2.0,2.0]。

  • 默认取值:不涉及。

presence_penalty

Double

  • 参数解释:存在惩罚,控制文本中话题的重复度,避免在对话或文本中反复讨论相同的主题或观点。正值会根据到目前为止它们是否出现在文本中来惩罚新令牌,从而增加模型谈论新主题的可能性。

  • 约束限制:不涉及

  • 取值范围:[-2.0,2.0]。

  • 默认取值:不涉及。

n

Integer

  • 参数解释:要为每个输入消息生成多少个聊天完成选项。请注意,您将根据所有选项中生成的token数收取费用。将n保持为1,以最小化成本。

  • 约束限制:不涉及。

  • 取值范围:不涉及。

  • 默认取值:不涉及。

表4 ChatMessage

参数

是否必选

参数类型

描述

role

String

  • 参数解释:角色。

  • 约束限制:不涉及。

  • 取值范围:长度为[1,64]的除了 “!”、“<”、“>”、“=”、“&”、“"”、“'” 之外的任意字符的组合。

  • 默认取值:不涉及。

content

String

  • 参数解释:消息的内容。

  • 约束限制:不涉及。

  • 取值范围:长度[0,1000000]。

  • 默认取值:不涉及。

响应参数

状态码:200

创建ChatCompletions的响应体。

状态码:400

表5 响应Body参数

参数

参数类型

描述

error_code

String

  • 参数解释:错误码。

  • 约束限制:不涉及。

  • 取值范围:长度[8,36]。

  • 默认取值:不涉及。

error_msg

String

  • 参数解释:错误描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

solution_msg

String

  • 参数解释:解决方案描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

状态码:401

表6 响应Body参数

参数

参数类型

描述

error_code

String

  • 参数解释:错误码。

  • 约束限制:不涉及。

  • 取值范围:长度[8,36]。

  • 默认取值:不涉及。

error_msg

String

  • 参数解释:错误描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

solution_msg

String

  • 参数解释:解决方案描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

状态码:404

表7 响应Body参数

参数

参数类型

描述

error_code

String

  • 参数解释:错误码。

  • 约束限制:不涉及。

  • 取值范围:长度[8,36]。

  • 默认取值:不涉及。

error_msg

String

  • 参数解释:错误描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

solution_msg

String

  • 参数解释:解决方案描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

状态码:408

表8 响应Body参数

参数

参数类型

描述

error_code

String

  • 参数解释:错误码。

  • 约束限制:不涉及。

  • 取值范围:长度[8,36]。

  • 默认取值:不涉及。

error_msg

String

  • 参数解释:错误描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

solution_msg

String

  • 参数解释:解决方案描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

状态码:500

表9 响应Body参数

参数

参数类型

描述

error_code

String

  • 参数解释:错误码。

  • 约束限制:不涉及。

  • 取值范围:长度[8,36]。

  • 默认取值:不涉及。

error_msg

String

  • 参数解释:错误描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

solution_msg

String

  • 参数解释:解决方案描述。

  • 约束限制:不涉及。

  • 取值范围:长度[2,4096]。

  • 默认取值:不涉及。

请求示例

调用已部署的大模型推理实例,发起推理请求。具体请求参数如下示例所示。

POST https://{endpoint}/v1/workspaces/{workspace_id}/services/instances/{instance_id}/invocations

{
  "messages" : [ {
    "role" : "user",
    "content" : "请总结2023年LLM的发展"
  } ]
}

响应示例

状态码:200

创建ChatCompletions的响应体。

{
  "route_id" : "ac8111bf-3601-4905-8ddd-b41d3e636a4e"
}

状态码:400

BadRequest

{
  "error_code" : "common.01000001",
  "error_msg" : "failed to read http request, please check your input, code: 400, reason: Type mismatch., cause: TypeMismatchException"
}

状态码:401

Unauthorized

{
  "error_code" : "APIG.1002",
  "error_msg" : "Incorrect token or token resolution failed"
}

状态码:403

Forbidden

{
  "error" : {
    "code" : "403",
    "message" : "X-Auth-Token is invalid in the request",
    "title" : "Forbidden"
  },
  "error_code" : 403,
  "error_msg" : "X-Auth-Token is invalid in the request",
  "title" : "Forbidden"
}

状态码:404

NotFound

{
  "error_code" : "common.01000001",
  "error_msg" : "response status exception, code: 404"
}

状态码:408

Request Time-out

{
  "error_code" : "common.00000408",
  "error_msg" : "timeout exception occurred"
}

状态码:500

InternalServerError

{
  "error_code" : "common.00000500",
  "error_msg" : "internal error"
}

状态码

状态码

描述

200

创建ChatCompletions的响应体。

400

BadRequest

401

Unauthorized

403

Forbidden

404

NotFound

408

Request Time-out

500

InternalServerError

错误码

请参见错误码

相关文档