正确性
正确性评估器
分类 | 详情 | |
|---|---|---|
基础信息 | 评估器名称 | 正确性 |
效果说明 | 功能概述 | 评估智能体的输出是否正确、准确、真实,并完整覆盖核心要点。通过将智能体的实际输出与预设的参考答案进行对比,评判回答的正确性和完整性。 |
评估方式 | LLM评估 | |
评估目标 | 文本、输出质量 | |
应用场景 | 有明确标准答案的评测场景,如知识问答、客服回复、信息提取等,需要检验智能体输出是否与参考答案一致。 | |
评分标准 | 1.0分 | 输出正确、准确、真实,且完整覆盖参考答案的核心要点。 |
0.0分 | 输出错误、不准确、不真实,或遗漏核心要点。 | |
评估器参数说明:
参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
输入参数 | input | 是 | 用户的输入问题,提供评估的上下文背景。 |
actual_output | 是 | 智能体针对该问题的实际输出结果。 | |
reference_output | 是 | 评测集中预设的标准参考答案,作为正确性评判基准。 | |
输出参数 | score | - | 评估得分(0.0 / 1.0)。 |
reason | - | 评分理由说明。 |
使用该评估器前,需要在评测集中为每条测试数据准备好input(用户问题)和reference_output(标准参考答案)。评估时平台会自动将智能体的实际输出填入agent_output,三项数据共同传入评估Prompt进行评分。各字段的推荐映射方式如下:
输入格式示例:
{
"input": "中国的首都是哪里",
"actual_output": "中国的首都是北京",
"reference_output": "北京"
} 输出格式示例:
{
"score": 1,
"reason": "实际输出包含参考答案'北京',且回答正确、准确,完整回应了问题。"
} 
