更新时间:2026-03-09 GMT+08:00
分享

正确性

正确性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

正确性

效果说明

功能概述

评估智能体的输出是否正确、准确、真实,并完整覆盖核心要点。通过将智能体的实际输出与预设的参考答案进行对比,评判回答的正确性和完整性。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

有明确标准答案的评测场景,如知识问答、客服回复、信息提取等,需要检验智能体输出是否与参考答案一致。

评分标准

1.0分

输出正确、准确、真实,且完整覆盖参考答案的核心要点。

0.0分

输出错误、不准确、不真实,或遗漏核心要点。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

actual_output

智能体针对该问题的实际输出结果。

reference_output

评测集中预设的标准参考答案,作为正确性评判基准。

输出参数

score

-

评估得分(0.0 / 1.0)。

reason

-

评分理由说明。

使用该评估器前,需要在评测集中为每条测试数据准备好input(用户问题)和reference_output(标准参考答案)。评估时平台会自动将智能体的实际输出填入agent_output,三项数据共同传入评估Prompt进行评分。各字段的推荐映射方式如下:

输入格式示例:

{
  "input": "中国的首都是哪里",
  "actual_output": "中国的首都是北京",
  "reference_output": "北京"
}

输出格式示例:

{
  "score": 1,
  "reason": "实际输出包含参考答案'北京',且回答正确、准确,完整回应了问题。"
}

相关文档