更新时间:2026-03-09 GMT+08:00
分享

参考答案遵从度

参考答案遵从度评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

参考答案遵从度

效果说明

功能概述

判断AI回答是否在关键要点上与标准答案实质一致。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

适用于教育评测、知识问答、标准化考试等需要严格对照参考答案的场景,评估AI输出是否准确覆盖标准答案的核心要点,允许表述差异但要求实质内容一致。

评分标准

1.0分

回答与参考答案实质完全一致,所有关键要点准确覆盖,表述差异不影响核心内容。

0.75分

回答与参考答案高度一致,关键要点基本覆盖,存在轻微遗漏或非核心偏差。

0.5分

回答与参考答案部分一致,关键要点有遗漏或部分错误,但整体方向正确。

0.25分

回答与参考答案低度一致,关键要点大量缺失或存在明显错误,仅个别内容相关。

0.0分

回答与参考答案完全不符,关键要点全部错误或缺失,实质内容不一致。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

actual_output

智能体针对该问题的实际输出结果。

reference_output

评测集中预设的标准参考答案,作为正确性评判基准。

输出参数

score

评估得分(0.0/0.25/0.5/0.75/1.0)。

reason

评分理由说明。

输入格式示例:

{
  "input": "什么是光合作用?",
  "actual_output": "光合作用是植物利用光能将二氧化碳和水转化为葡萄糖和氧气的过程。",
  "reference_output": "植物通过吸收阳光,把二氧化碳和水变成氧气和糖,这个过程叫光合作用。"
}

输出格式示例:

{
  "score": 1.0,
  "reason": "AI 回答虽用词略有不同,但完整覆盖了“光能”“二氧化碳”“水”“葡萄糖(糖)”“氧气”“转化”等所有核心要素,语义等价,无遗漏或矛盾。"
}

相关文档