更新时间:2026-04-15 GMT+08:00
分享

评估器调试 - DebugOpsEvaluator

功能介绍

该接口用于对评估器的判分逻辑进行实时调试,通过输入样例数据验证评估器的解析能力、Prompt 效果及评分准确性。

URI

POST /v1/ops/evaluators/debug

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

Content-Type

String

参数解释:

消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

application/json

Authorization

String

参数解释:

签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

X-Sdk-Date

String

参数解释:

请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

表2 请求Body参数

参数

是否必选

参数类型

描述

type

String

参数解释:

评估器的调试类型。

约束限制:

长度为0到100个字符。

取值范围:

  • llm: 基于大语言模型的调试

  • code: 基于代码脚本的调试

默认取值:

不涉及。

llm_config

EvaluationOpsLLMConfig object

参数解释:

大模型评估器的具体配置信息。

约束限制:

仅当type为 llm 时生效。

取值范围:

参考EvaluationOpsLLMConfig定义。

默认取值:

不涉及。

表3 EvaluationOpsLLMConfig

参数

是否必选

参数类型

描述

system_prompt

String

参数解释:

系统提示词(System Prompt),定义模型的角色与规则。

约束限制:

0到10000字符。

取值范围:

不涉及。

默认取值:

不涉及。

model_config

EvaluationOpsModelConfig object

参数解释:

具体的模型参数配置对象。

约束限制:

不涉及。

取值范围:

参考EvaluationOpsModelConfig定义。

默认取值:

不涉及。

表4 EvaluationOpsModelConfig

参数

是否必选

参数类型

描述

model_id

String

参数解释:

指定调用的大模型唯一标识符。

约束限制:

1-64个字符。

取值范围:

合法的模型ID字符串。

默认取值:

不涉及。

model_name

String

参数解释:

模型的显示名称。

约束限制:

2-100个字符。

取值范围:

任意字符串。

默认取值:

不涉及。

temperature

Float

参数解释:

采样温度参数,用于控制输出的随机性。数值低更聚焦,数值高更具创造性。

约束限制:

浮点数。

取值范围:

0.0到2.0。

默认取值:

0.7。

max_tokens

Integer

参数解释:

单次推理生成的最大Token数量限制。

约束限制:

1-32,000之间的整数。

取值范围:

1-32000。

默认取值:

2000。

top_p

Float

参数解释:

核采样参数。

约束限制:

浮点数。

取值范围:

0.0到1.0。

默认取值:

1.0。

frequency_penalty

Float

参数解释:

频率惩罚系数,降低内容重复倾向。

约束限制:

浮点数。

取值范围:

-2.0到2.0。

默认取值:

0。

响应参数

状态码:200

表5 响应Body参数

参数

参数类型

描述

status_code

Integer

参数解释:

调试执行的状态码。

取值范围:

遵循 HTTP 状态码或自定义业务状态码。

error

String

参数解释:

调试过程中产生的错误详细信息。

取值范围:

描述性错误字符串。

score

Integer

参数解释:

评估器根据当前输入调试出的评分结果。

取值范围:

按评估逻辑定义的评分区间返回。

reason

String

参数解释:

评估结果的详细理由或推导过程。

取值范围:

详细的描述性文本。

input_token_usage

Integer

参数解释:

调试请求中输入内容消耗的Token数量。

取值范围:

0到2,147,483,647之间的整数。

output_token_usage

Integer

参数解释:

调试请求中输出内容消耗的Token数量。

取值范围:

0到2,147,483,647之间的整数。

latency

Integer

参数解释:

本次调试操作的耗时。

取值范围:

0 - 2,147,483,647 之间的整数。

请求示例

通过输入样例数据实时调试评估器的判分逻辑和 Prompt 效果。

POST https://*.com/agentarts/v1/ops/evaluators/debug

{
  "type" : "llm",
  "llm_config" : {
    "system_prompt" : "system_prompt",
    "model_config" : {
      "model_id" : "1749615103",
      "model_name" : "豆包·1.6·自动深度思考",
      "temperature" : 0.1,
      "max_tokens" : 4096,
      "top_p" : 0.7,
      "frequency_penalty" : 0
    }
  }
}

响应示例

状态码:200

成功响应

{
  "status_code" : 200,
  "error" : "Invalid Prompt Template",
  "score" : 85,
  "reason" : "回复内容过于笼统。",
  "input_token_usage" : 386,
  "output_token_usage" : 703,
  "latency" : 2200
}

状态码

状态码

描述

200

成功响应

错误码

请参见错误码

相关文档