评估器调试 - DebugOpsEvaluator
功能介绍
该接口用于对评估器的判分逻辑进行实时调试,通过输入样例数据验证评估器的解析能力、Prompt 效果及评分准确性。
URI
POST /v1/ops/evaluators/debug
请求参数
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| Content-Type | 是 | String | 参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: application/json 默认取值: application/json |
| Authorization | 是 | String | 参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| X-Sdk-Date | 是 | String | 参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| type | 否 | String | 参数解释: 评估器的调试类型。 约束限制: 长度为0到100个字符。 取值范围: 默认取值: 不涉及。 |
| llm_config | 否 | EvaluationOpsLLMConfig object | 参数解释: 大模型评估器的具体配置信息。 约束限制: 仅当type为 llm 时生效。 取值范围: 参考EvaluationOpsLLMConfig定义。 默认取值: 不涉及。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| system_prompt | 否 | String | 参数解释: 系统提示词(System Prompt),定义模型的角色与规则。 约束限制: 0到10000字符。 取值范围: 不涉及。 默认取值: 不涉及。 |
| model_config | 否 | EvaluationOpsModelConfig object | 参数解释: 具体的模型参数配置对象。 约束限制: 不涉及。 取值范围: 参考EvaluationOpsModelConfig定义。 默认取值: 不涉及。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| model_id | 是 | String | 参数解释: 指定调用的大模型唯一标识符。 约束限制: 1-64个字符。 取值范围: 合法的模型ID字符串。 默认取值: 不涉及。 |
| model_name | 是 | String | 参数解释: 模型的显示名称。 约束限制: 2-100个字符。 取值范围: 任意字符串。 默认取值: 不涉及。 |
| temperature | 否 | Float | 参数解释: 采样温度参数,用于控制输出的随机性。数值低更聚焦,数值高更具创造性。 约束限制: 浮点数。 取值范围: 0.0到2.0。 默认取值: 0.7。 |
| max_tokens | 否 | Integer | 参数解释: 单次推理生成的最大Token数量限制。 约束限制: 1-32,000之间的整数。 取值范围: 1-32000。 默认取值: 2000。 |
| top_p | 否 | Float | 参数解释: 核采样参数。 约束限制: 浮点数。 取值范围: 0.0到1.0。 默认取值: 1.0。 |
| frequency_penalty | 否 | Float | 参数解释: 频率惩罚系数,降低内容重复倾向。 约束限制: 浮点数。 取值范围: -2.0到2.0。 默认取值: 0。 |
响应参数
状态码:200
| 参数 | 参数类型 | 描述 |
|---|---|---|
| status_code | Integer | 参数解释: 调试执行的状态码。 取值范围: 遵循 HTTP 状态码或自定义业务状态码。 |
| error | String | 参数解释: 调试过程中产生的错误详细信息。 取值范围: 描述性错误字符串。 |
| score | Integer | 参数解释: 评估器根据当前输入调试出的评分结果。 取值范围: 按评估逻辑定义的评分区间返回。 |
| reason | String | 参数解释: 评估结果的详细理由或推导过程。 取值范围: 详细的描述性文本。 |
| input_token_usage | Integer | 参数解释: 调试请求中输入内容消耗的Token数量。 取值范围: 0到2,147,483,647之间的整数。 |
| output_token_usage | Integer | 参数解释: 调试请求中输出内容消耗的Token数量。 取值范围: 0到2,147,483,647之间的整数。 |
| latency | Integer | 参数解释: 本次调试操作的耗时。 取值范围: 0 - 2,147,483,647 之间的整数。 |
请求示例
通过输入样例数据实时调试评估器的判分逻辑和 Prompt 效果。
POST https://*.com/agentarts/v1/ops/evaluators/debug
{
"type" : "llm",
"llm_config" : {
"system_prompt" : "system_prompt",
"model_config" : {
"model_id" : "1749615103",
"model_name" : "豆包·1.6·自动深度思考",
"temperature" : 0.1,
"max_tokens" : 4096,
"top_p" : 0.7,
"frequency_penalty" : 0
}
}
} 响应示例
状态码:200
成功响应
{
"status_code" : 200,
"error" : "Invalid Prompt Template",
"score" : 85,
"reason" : "回复内容过于笼统。",
"input_token_usage" : 386,
"output_token_usage" : 703,
"latency" : 2200
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 成功响应 |
错误码
请参见错误码。