发起调用请求
功能介绍
调用已部署的大模型推理实例,发起推理请求。
URI
POST https://localhost.com/v1/workspaces/{workspace_id}/services/instances/{instance_id}/invocations
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
workspace_id |
是 |
String |
|
instance_id |
是 |
String |
实例的Id。获取方法,请参见获取推理实例ID。 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
否 |
String |
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
messages |
否 |
Array of ChatMessage objects |
消息 |
max_tokens |
否 |
Integer |
要在聊天完成中生成的最大token数。 输入token和生成token的总长度受模型的上下文长度限制。 |
temperature |
否 |
Double |
Temperature是用于调整随机程度的数字。介于0和2之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使输出更集中和确定性。 |
top_p |
否 |
Double |
核心采样,用于控制AI模型根据累积概率考虑的标记范围。 |
stream |
否 |
Boolean |
是否支持流式返回。如果支持,则消息按行返回(交互式效果)。如果不支持,则消息一次性全部返回。 |
frequency_penalty |
否 |
Double |
|
presence_penalty |
否 |
Double |
|
n |
否 |
Integer |
要为每个输入消息生成多少个聊天完成选项。请注意,您将根据所有选项中生成的token数收取费用。将n保持为1,以最小化成本。 |
响应参数
状态码: 400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
错误码 |
error_msg |
String |
错误描述 |
solution_msg |
String |
解决方案描述 |
状态码: 401
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
错误码 |
error_msg |
String |
错误描述 |
solution_msg |
String |
解决方案描述 |
状态码: 404
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
错误码 |
error_msg |
String |
错误描述 |
solution_msg |
String |
解决方案描述 |
状态码: 408
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
错误码 |
error_msg |
String |
错误描述 |
solution_msg |
String |
解决方案描述 |
状态码: 500
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
错误码 |
error_msg |
String |
错误描述 |
solution_msg |
String |
解决方案描述 |
请求示例
无
响应示例
无
状态码
状态码 |
描述 |
---|---|
200 |
创建ChatCompletions的响应体 |
400 |
Bad request error |
401 |
Unauthorized error |
403 |
Forbidden error |
404 |
Not found error |
408 |
Request timeout error |
500 |
Internal error |
错误码
请参见错误码。