更新时间:2024-12-20 GMT+08:00
分享

发起调用请求

功能介绍

调用已部署的大模型推理实例,发起推理请求。

URI

POST https://localhost.com/v1/workspaces/{workspace_id}/services/instances/{instance_id}/invocations

表1 路径参数

参数

是否必选

参数类型

描述

workspace_id

String

  • 参数解释:Workspace的ID。

  • 约束限制:不涉及。

  • 取值范围:不涉及。

  • 默认取值:不涉及。

instance_id

String

实例的Id。获取方法,请参见获取推理实例ID

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

  • 参数解释:租户token。

  • 约束限制:不涉及。

  • 取值范围:不涉及。

  • 默认取值:不涉及。

表3 请求Body参数

参数

是否必选

参数类型

描述

messages

Array of ChatMessage objects

消息

max_tokens

Integer

要在聊天完成中生成的最大token数。

输入token和生成token的总长度受模型的上下文长度限制。

temperature

Double

Temperature是用于调整随机程度的数字。介于0和2之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使输出更集中和确定性。

top_p

Double

核心采样,用于控制AI模型根据累积概率考虑的标记范围。

stream

Boolean

是否支持流式返回。如果支持,则消息按行返回(交互式效果)。如果不支持,则消息一次性全部返回。

frequency_penalty

Double

  • 参数解释:频率惩罚,控制文本中词汇的重复度,避免生成文本中某些词汇或短语出现过于频繁。正值会根据它们在文本中的现有频率惩罚新令牌,从而降低模型逐字重复同一行的可能性。

  • 约束限制:不涉及

  • 取值范围:[-2.0,2.0]。

  • 默认取值:不涉及。

presence_penalty

Double

  • 参数解释:存在惩罚,控制文本中话题的重复度,避免在对话或文本中反复讨论相同的主题或观点。正值会根据到目前为止它们是否出现在文本中来惩罚新令牌,从而增加模型谈论新主题的可能性。

  • 约束限制:不涉及

  • 取值范围:[-2.0,2.0]。

  • 默认取值:不涉及。

n

Integer

要为每个输入消息生成多少个聊天完成选项。请注意,您将根据所有选项中生成的token数收取费用。将n保持为1,以最小化成本。

表4 ChatMessage

参数

是否必选

参数类型

描述

role

String

角色

content

String

消息的内容

响应参数

状态码: 400

表5 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

solution_msg

String

解决方案描述

状态码: 401

表6 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

solution_msg

String

解决方案描述

状态码: 404

表7 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

solution_msg

String

解决方案描述

状态码: 408

表8 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

solution_msg

String

解决方案描述

状态码: 500

表9 响应Body参数

参数

参数类型

描述

error_code

String

错误码

error_msg

String

错误描述

solution_msg

String

解决方案描述

请求示例

响应示例

状态码

状态码

描述

200

创建ChatCompletions的响应体

400

Bad request error

401

Unauthorized error

403

Forbidden error

404

Not found error

408

Request timeout error

500

Internal error

错误码

请参见错误码

相关文档