文档首页/ 智能体开发平台 AgentArts/ API参考/ API/ 评估/ 评估器管理/ 评估器调试 - DebugOpsEvaluator

更新时间：2026-04-15 GMT+08:00

查看PDF

评估器调试 - DebugOpsEvaluator

功能介绍

该接口用于对评估器的判分逻辑进行实时调试，通过输入样例数据验证评估器的解析能力、Prompt 效果及评分准确性。

URI

POST /v1/ops/evaluators/debug

请求参数

表1 请求Header参数
参数	是否必选	参数类型	描述
Content-Type	是	String	参数解释：消息体编码格式。用于告知服务端请求体（Body）所采用的主体数据类型，以便服务端正确解析。约束限制：不涉及取值范围：不涉及默认取值： application/json
Authorization	是	String	参数解释：签名认证信息，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及
X-Sdk-Date	是	String	参数解释：请求发送的时间，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及

表2 请求Body参数
参数	是否必选	参数类型	描述
type	否	String	参数解释：评估器的调试类型。约束限制：长度为0到100个字符。取值范围： llm: 基于大语言模型的调试 code: 基于代码脚本的调试默认取值：不涉及。
llm_config	否	EvaluationOpsLLMConfig object	参数解释：大模型评估器的具体配置信息。约束限制：仅当type为 llm 时生效。取值范围：参考EvaluationOpsLLMConfig定义。默认取值：不涉及。

表3 EvaluationOpsLLMConfig
参数	是否必选	参数类型	描述
system_prompt	否	String	参数解释：系统提示词（System Prompt），定义模型的角色与规则。约束限制： 0到10000字符。取值范围：不涉及。默认取值：不涉及。
model_config	否	EvaluationOpsModelConfig object	参数解释：具体的模型参数配置对象。约束限制：不涉及。取值范围：参考EvaluationOpsModelConfig定义。默认取值：不涉及。

表4 EvaluationOpsModelConfig
参数	是否必选	参数类型	描述
model_id	是	String	参数解释：指定调用的大模型唯一标识符。约束限制： 1-64个字符。取值范围：合法的模型ID字符串。默认取值：不涉及。
model_name	是	String	参数解释：模型的显示名称。约束限制： 2-100个字符。取值范围：任意字符串。默认取值：不涉及。
temperature	否	Float	参数解释：采样温度参数，用于控制输出的随机性。数值低更聚焦，数值高更具创造性。约束限制：浮点数。取值范围： 0.0到2.0。默认取值： 0.7。
max_tokens	否	Integer	参数解释：单次推理生成的最大Token数量限制。约束限制： 1-32,000之间的整数。取值范围： 1-32000。默认取值： 2000。
top_p	否	Float	参数解释：核采样参数。约束限制：浮点数。取值范围： 0.0到1.0。默认取值： 1.0。
frequency_penalty	否	Float	参数解释：频率惩罚系数，降低内容重复倾向。约束限制：浮点数。取值范围： -2.0到2.0。默认取值： 0。

响应参数

状态码：200

表5 响应Body参数
参数	参数类型	描述
status_code	Integer	参数解释：调试执行的状态码。取值范围：遵循 HTTP 状态码或自定义业务状态码。
error	String	参数解释：调试过程中产生的错误详细信息。取值范围：描述性错误字符串。
score	Integer	参数解释：评估器根据当前输入调试出的评分结果。取值范围：按评估逻辑定义的评分区间返回。
reason	String	参数解释：评估结果的详细理由或推导过程。取值范围：详细的描述性文本。
input_token_usage	Integer	参数解释：调试请求中输入内容消耗的Token数量。取值范围： 0到2,147,483,647之间的整数。
output_token_usage	Integer	参数解释：调试请求中输出内容消耗的Token数量。取值范围： 0到2,147,483,647之间的整数。
latency	Integer	参数解释：本次调试操作的耗时。取值范围： 0 - 2,147,483,647 之间的整数。

请求示例

通过输入样例数据实时调试评估器的判分逻辑和 Prompt 效果。

POST https://*.com/agentarts/v1/ops/evaluators/debug

{
  "type" : "llm",
  "llm_config" : {
    "system_prompt" : "system_prompt",
    "model_config" : {
      "model_id" : "1749615103",
      "model_name" : "豆包·1.6·自动深度思考",
      "temperature" : 0.1,
      "max_tokens" : 4096,
      "top_p" : 0.7,
      "frequency_penalty" : 0
    }
  }
}

响应示例

状态码：200

成功响应

{
  "status_code" : 200,
  "error" : "Invalid Prompt Template",
  "score" : 85,
  "reason" : "回复内容过于笼统。",
  "input_token_usage" : 386,
  "output_token_usage" : 703,
  "latency" : 2200
}

状态码

状态码	描述
200	成功响应

错误码

请参见错误码。

父主题： 评估器管理

上一篇：删除评估器特定版本 - DeleteOpsEvaluatorVersion

下一篇：更新评估器标签 - UpdateOpsEvaluatorTags

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问