评估器调试 - DebugOpsEvaluator
功能介绍
该接口用于对评估器的判分逻辑进行实时调试,通过输入样例数据验证评估器的解析能力、Prompt 效果及评分准确性。
URI
POST /v1/ops/evaluators/debug
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
Content-Type |
是 |
String |
参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: 不涉及 默认取值: application/json |
|
Authorization |
是 |
String |
参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
X-Sdk-Date |
是 |
String |
参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
type |
否 |
String |
参数解释: 评估器的调试类型。 约束限制: 长度为0到100个字符。 取值范围: 默认取值: 不涉及。 |
|
llm_config |
否 |
EvaluationOpsLLMConfig object |
参数解释: 大模型评估器的具体配置信息。 约束限制: 仅当type为 llm 时生效。 取值范围: 参考EvaluationOpsLLMConfig定义。 默认取值: 不涉及。 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
system_prompt |
否 |
String |
参数解释: 系统提示词(System Prompt),定义模型的角色与规则。 约束限制: 0到10000字符。 取值范围: 不涉及。 默认取值: 不涉及。 |
|
model_config |
否 |
EvaluationOpsModelConfig object |
参数解释: 具体的模型参数配置对象。 约束限制: 不涉及。 取值范围: 参考EvaluationOpsModelConfig定义。 默认取值: 不涉及。 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
model_id |
是 |
String |
参数解释: 指定调用的大模型唯一标识符。 约束限制: 1-64个字符。 取值范围: 合法的模型ID字符串。 默认取值: 不涉及。 |
|
model_name |
是 |
String |
参数解释: 模型的显示名称。 约束限制: 2-100个字符。 取值范围: 任意字符串。 默认取值: 不涉及。 |
|
temperature |
否 |
Float |
参数解释: 采样温度参数,用于控制输出的随机性。数值低更聚焦,数值高更具创造性。 约束限制: 浮点数。 取值范围: 0.0到2.0。 默认取值: 0.7。 |
|
max_tokens |
否 |
Integer |
参数解释: 单次推理生成的最大Token数量限制。 约束限制: 1-32,000之间的整数。 取值范围: 1-32000。 默认取值: 2000。 |
|
top_p |
否 |
Float |
参数解释: 核采样参数。 约束限制: 浮点数。 取值范围: 0.0到1.0。 默认取值: 1.0。 |
|
frequency_penalty |
否 |
Float |
参数解释: 频率惩罚系数,降低内容重复倾向。 约束限制: 浮点数。 取值范围: -2.0到2.0。 默认取值: 0。 |
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
status_code |
Integer |
参数解释: 调试执行的状态码。 取值范围: 遵循 HTTP 状态码或自定义业务状态码。 |
|
error |
String |
参数解释: 调试过程中产生的错误详细信息。 取值范围: 描述性错误字符串。 |
|
score |
Integer |
参数解释: 评估器根据当前输入调试出的评分结果。 取值范围: 按评估逻辑定义的评分区间返回。 |
|
reason |
String |
参数解释: 评估结果的详细理由或推导过程。 取值范围: 详细的描述性文本。 |
|
input_token_usage |
Integer |
参数解释: 调试请求中输入内容消耗的Token数量。 取值范围: 0到2,147,483,647之间的整数。 |
|
output_token_usage |
Integer |
参数解释: 调试请求中输出内容消耗的Token数量。 取值范围: 0到2,147,483,647之间的整数。 |
|
latency |
Integer |
参数解释: 本次调试操作的耗时。 取值范围: 0 - 2,147,483,647 之间的整数。 |
请求示例
通过输入样例数据实时调试评估器的判分逻辑和 Prompt 效果。
POST https://*.com/agentarts/v1/ops/evaluators/debug
{
"type" : "llm",
"llm_config" : {
"system_prompt" : "system_prompt",
"model_config" : {
"model_id" : "1749615103",
"model_name" : "豆包·1.6·自动深度思考",
"temperature" : 0.1,
"max_tokens" : 4096,
"top_p" : 0.7,
"frequency_penalty" : 0
}
}
}
响应示例
状态码:200
成功响应
{
"status_code" : 200,
"error" : "Invalid Prompt Template",
"score" : 85,
"reason" : "回复内容过于笼统。",
"input_token_usage" : 386,
"output_token_usage" : 703,
"latency" : 2200
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
成功响应 |
错误码
请参见错误码。