参考答案遵从度

参考答案遵从度评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	参考答案遵从度
效果说明	功能概述	判断AI回答是否在关键要点上与标准答案实质一致。
	评估方式	LLM评估
	评估目标	文本、输出质量
	应用场景	适用于教育评测、知识问答、标准化考试等需要严格对照参考答案的场景，评估AI输出是否准确覆盖标准答案的核心要点，允许表述差异但要求实质内容一致。
评分标准	1.0分	回答与参考答案实质完全一致，所有关键要点准确覆盖，表述差异不影响核心内容。
	0.75分	回答与参考答案高度一致，关键要点基本覆盖，存在轻微遗漏或非核心偏差。
	0.5分	回答与参考答案部分一致，关键要点有遗漏或部分错误，但整体方向正确。
	0.25分	回答与参考答案低度一致，关键要点大量缺失或存在明显错误，仅个别内容相关。
	0.0分	回答与参考答案完全不符，关键要点全部错误或缺失，实质内容不一致。

评估器参数说明：

输入格式示例：

{
  "input": "什么是光合作用？",
  "actual_output": "光合作用是植物利用光能将二氧化碳和水转化为葡萄糖和氧气的过程。",
  "reference_output": "植物通过吸收阳光，把二氧化碳和水变成氧气和糖，这个过程叫光合作用。"
}

输出格式示例：

{
  "score": 1.0,
  "reason": "AI 回答虽用词略有不同，但完整覆盖了“光能”“二氧化碳”“水”“葡萄糖（糖）”“氧气”“转化”等所有核心要素，语义等价，无遗漏或矛盾。"
}

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨