文档首页/ 数智融合计算服务 DataArtsFabric/ API参考/ API/ 推理服务接口/ 发起调用请求

更新时间：2025-09-15 GMT+08:00

查看PDF

发起调用请求

功能介绍

调用已部署的大模型推理实例，发起推理请求。此接口为同步接口，无配套使用接口。该接口会有内容审核，对于不符合要求的内容会进行屏蔽，用户可以选择是否关闭。

调试

您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。

URI

POST /v1/workspaces/{workspace_id}/services/instances/{instance_id}/invocations

表1 路径参数
参数	是否必选	参数类型	描述
workspace_id	是	String	参数解释：工作空间的ID。约束限制：不涉及。取值范围：长度为[1,36]的字母、数字、中划线(-)的组合。默认取值：不涉及。
instance_id	是	String	参数解释：实例的ID。获取方法，请参见获取推理实例ID。约束限制：不涉及。取值范围：长度为[1,36]的字母、数字、中划线(-)的组合。默认取值：不涉及。

请求参数

表2 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	否	String	参数解释：租户token。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

表3 请求Body参数
参数	是否必选	参数类型	描述
messages	否	Array of ChatMessage objects	参数解释：消息。约束限制：[1,100000]。
max_tokens	否	Integer	参数解释：要在聊天完成中生成的最大token数。输入token和生成token的总长度受模型的上下文长度限制。输入0时模型按照默认值4096处理。R1模型取值范围为[0, 32k]， V3模型取值范围为[0, 16k]。不可与max_completion_tokens字段同时设置，会直接报错。约束限制：输入token和生成token的总长度受模型的上下文长度限制。取值范围：不涉及。默认取值：不涉及。
temperature	否	Double	参数解释：Temperature是用于调整随机程度的数字。介于0和2之间。较高的值（如0.8）将使输出更随机，而较低的值（如0.2）将使输出更集中和确定性。约束限制：不涉及。取值范围：[0,2]。默认取值：1。
logit_bias	否	Object	参数解释：接受一个map值，其中每个键为词表中的token ID（使用tokenization接口获取），为整数，每个值为该token的偏差值，为浮点数。调整指定token在模型输出内容中出现的概率，使模型生成的内容更加符合特定的偏好。该参数暂不支持。约束限制：不涉及。
top_p	否	Double	参数解释：核心采样，用于控制AI模型根据累积概率考虑的标记范围。当取值为 0 时模型仅考虑对数概率最大的一个token。约束限制：不涉及。取值范围：[0,1]。默认取值：1。
stream	否	Boolean	参数解释：是否支持流式返回。如果支持，则消息按行返回（交互式效果）。如果不支持，则消息一次性全部返回。约束限制：不涉及。取值范围：true，false。默认取值：不涉及。
frequency_penalty	否	Double	参数解释：频率惩罚，控制文本中词汇的重复度，避免生成文本中某些词汇或短语出现过于频繁。正值会根据它们在文本中的现有频率惩罚新令牌，从而降低模型逐字重复同一行的可能性。约束限制：不涉及取值范围：[-2.0,2.0]。默认取值：不涉及。
presence_penalty	否	Double	参数解释：存在惩罚，控制文本中话题的重复度，避免在对话或文本中反复讨论相同的主题或观点。正值会根据到目前为止它们是否出现在文本中来惩罚新令牌，从而增加模型谈论新主题的可能性。约束限制：不涉及取值范围：[-2.0,2.0]。默认取值：不涉及。
n	否	Integer	参数解释：要为每个输入消息生成多少个聊天完成选项。请注意，您将根据所有选项中生成的token数收取费用。将n保持为1，以最小化成本。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

表4 ChatMessage
参数	是否必选	参数类型	描述
role	是	String	参数解释：角色。约束限制：不涉及。取值范围：长度为[1,64]的除了 “!”、“<”、“>”、“=”、“&”、“"”、“'” 之外的任意字符的组合。默认取值：不涉及。
content	否	Object	参数解释：消息的内容，可以是str或object[]。约束限制：不涉及。
name	否	String	提供模型信息，用于区分同一角色的参与者。
tool_calls	否	Array of MessageToolCall objects	模型生成的工具调用，content与tool_calls字段二者至少有一个为非空。
tool_call_id	否	String	模型生成的工具调用id

表5 MessageToolCall
参数	是否必选	参数类型	描述
id	是	String	当前工具调用ID。
type	是	String	tool的类型。目前仅支持function。
function	是	Function object	模型调用的function。

表6 Function
参数	是否必选	参数类型	描述
name	是	String	模型调用的function名。
arguments	是	String	要调用的function的参数，由模型生成，格式为JSON。请注意，模型并不总是生成有效的JSON，并且可能会臆造出你函数模式中未定义的参数。在调用函数之前，请在代码中验证这些参数。

响应参数

状态码：200

创建ChatCompletions的响应体。

状态码：400

表7 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码。约束限制：不涉及。取值范围：长度[8,36]。默认取值：不涉及。
error_msg	String	参数解释：错误描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。
solution_msg	String	参数解释：解决方案描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。

状态码：401

表8 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码。约束限制：不涉及。取值范围：长度[8,36]。默认取值：不涉及。
error_msg	String	参数解释：错误描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。
solution_msg	String	参数解释：解决方案描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。

状态码：404

表9 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码。约束限制：不涉及。取值范围：长度[8,36]。默认取值：不涉及。
error_msg	String	参数解释：错误描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。
solution_msg	String	参数解释：解决方案描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。

状态码：408

**表10** 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码。约束限制：不涉及。取值范围：长度[8,36]。默认取值：不涉及。
error_msg	String	参数解释：错误描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。
solution_msg	String	参数解释：解决方案描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。

状态码：500

**表11** 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码。约束限制：不涉及。取值范围：长度[8,36]。默认取值：不涉及。
error_msg	String	参数解释：错误描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。
solution_msg	String	参数解释：解决方案描述。约束限制：不涉及。取值范围：长度[2,4096]。默认取值：不涉及。

请求示例

调用已部署的大模型推理实例，发起推理请求。具体请求参数如下示例所示。

POST https://{endpoint}/v1/workspaces/{workspace_id}/services/instances/{instance_id}/invocations

{
  "messages" : [ {
    "role" : "user",
    "content" : "请总结2023年LLM的发展"
  } ]
}

响应示例

状态码：200

创建ChatCompletions的响应体。

{
  "route_id" : "ac8111bf-3601-4905-8ddd-b41d3e636a4e"
}

状态码：400

BadRequest

{
  "error_code" : "common.01000001",
  "error_msg" : "failed to read http request, please check your input, code: 400, reason: Type mismatch., cause: TypeMismatchException"
}

状态码：401

Unauthorized

{
  "error_code" : "APIG.1002",
  "error_msg" : "Incorrect token or token resolution failed"
}

状态码：403

Forbidden

{
  "error" : {
    "code" : "403",
    "message" : "X-Auth-Token is invalid in the request",
    "title" : "Forbidden"
  },
  "error_code" : 403,
  "error_msg" : "X-Auth-Token is invalid in the request",
  "title" : "Forbidden"
}

状态码：404

NotFound

{
  "error_code" : "common.01000001",
  "error_msg" : "response status exception, code: 404"
}

状态码：408

Request Time-out

{
  "error_code" : "common.00000408",
  "error_msg" : "timeout exception occurred"
}

状态码：500

InternalServerError

{
  "error_code" : "common.00000500",
  "error_msg" : "internal error"
}

状态码

状态码	描述
200	创建ChatCompletions的响应体。
400	BadRequest
401	Unauthorized
403	Forbidden
404	NotFound
408	Request Time-out
500	InternalServerError

错误码

请参见错误码。

父主题： 推理服务接口

上一篇：推理服务接口

下一篇：Ray Session接口

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问