评估器调试 - DebugOpsEvaluator

功能介绍

该接口用于对评估器的判分逻辑进行实时调试，通过输入样例数据验证评估器的解析能力、Prompt 效果及评分准确性。

调用方法

授权信息

账号根用户具备所有API的调用权限，如果使用账号下的IAM用户调用当前API，该IAM用户需具备如下身份策略权限，更多的权限说明请参见权限和授权项。

授权项	访问级别	资源类型（*为必须）	条件键	别名	依赖的授权项
agentarts:evaluator:debugOpsEvaluator	Write	evaluator *	g:ResourceTag/<tag-key>	-	-

URI

POST /v1/ops/evaluators/debug

请求参数

表1 请求Header参数
参数	是否必选	参数类型	描述
Content-Type	是	String	参数解释：消息体编码格式。用于告知服务端请求体（Body）所采用的主体数据类型，以便服务端正确解析。约束限制：不涉及取值范围：不涉及默认取值： application/json
Authorization	是	String	参数解释：签名认证信息，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及
X-Sdk-Date	是	String	参数解释：请求发送的时间，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及

表2 请求Body参数
参数	是否必选	参数类型	描述
type	否	String	参数解释：评估器的调试类型。约束限制：长度为0到100个字符。取值范围： llm: 基于大语言模型的调试 code: 基于代码脚本的调试默认取值：不涉及。
turn_type	否	String	参数解释：评估器的轮次类型。约束限制：长度为0到100个字符。取值范围： single: 单轮评估器 multi: 多轮评估器默认取值：不涉及。
llm_config	否	EvaluationOpsLLMConfig object	参数解释：大模型评估器的具体配置信息。约束限制：仅当type为 llm 时生效。取值范围：参考EvaluationOpsLLMConfig定义。默认取值：不涉及。

表3 EvaluationOpsLLMConfig
参数	是否必选	参数类型	描述
system_prompt	否	String	参数解释：系统提示词（System Prompt），定义模型的角色与规则。约束限制： 0到10000字符。取值范围：不涉及。默认取值：不涉及。
model_config	否	EvaluationOpsModelConfig object	参数解释：具体的模型参数配置对象。约束限制：不涉及。取值范围：参考EvaluationOpsModelConfig定义。默认取值：不涉及。

表4 EvaluationOpsModelConfig
参数	是否必选	参数类型	描述
model_id	是	String	参数解释：指定调用的大模型唯一标识符。约束限制： 1-64个字符。取值范围：合法的模型ID字符串。默认取值：不涉及。
model_name	是	String	参数解释：模型的显示名称。约束限制： 2-100个字符。取值范围：任意字符串。默认取值：不涉及。
temperature	否	Float	参数解释：采样温度参数，用于控制输出的随机性。数值低更聚焦，数值高更具创造性。约束限制：浮点数。取值范围： 0.0到2.0。默认取值： 0.7。
max_tokens	否	Integer	参数解释：单次推理生成的最大Token数量限制。约束限制： 1-32,000之间的整数。取值范围： 1-32000。默认取值： 2000。
top_p	否	Float	参数解释：核采样参数。约束限制：浮点数。取值范围： 0.0到1.0。默认取值： 1.0。
frequency_penalty	否	Float	参数解释：频率惩罚系数，降低内容重复倾向。约束限制：浮点数。取值范围： -2.0到2.0。默认取值： 0。

响应参数

状态码：200

表5 响应Body参数
参数	参数类型	描述
status_code	Integer	参数解释：调试执行的状态码。取值范围：遵循 HTTP 状态码或自定义业务状态码。
error	String	参数解释：调试过程中产生的错误详细信息。取值范围：描述性错误字符串。
score	Integer	参数解释：评估器根据当前输入调试出的评分结果。取值范围：按评估逻辑定义的评分区间返回。
reason	String	参数解释：评估结果的详细理由或推导过程。取值范围：详细的描述性文本。
input_token_usage	Integer	参数解释：调试请求中输入内容消耗的Token数量。取值范围： 0到2,147,483,647之间的整数。
output_token_usage	Integer	参数解释：调试请求中输出内容消耗的Token数量。取值范围： 0到2,147,483,647之间的整数。
latency	Integer	参数解释：本次调试操作的耗时。取值范围： 0 - 2,147,483,647 之间的整数。

请求示例

通过输入样例数据实时调试评估器的判分逻辑和 Prompt 效果。

POST https://*.com/agentarts/v1/ops/evaluators/debug

{
  "type" : "llm",
  "llm_config" : {
    "system_prompt" : "system_prompt",
    "model_config" : {
      "model_id" : "1749615103",
      "model_name" : "豆包·1.6·自动深度思考",
      "temperature" : 0.1,
      "max_tokens" : 4096,
      "top_p" : 0.7,
      "frequency_penalty" : 0
    }
  }
}

响应示例

状态码：200

成功响应

{
  "status_code" : 200,
  "error" : "Invalid Prompt Template",
  "score" : 85,
  "reason" : "回复内容过于笼统。",
  "input_token_usage" : 386,
  "output_token_usage" : 703,
  "latency" : 2200
}