正确性

正确性评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	正确性
效果说明	功能概述	评估智能体的输出是否正确、准确、真实，并完整覆盖核心要点。通过将智能体的实际输出与预设的参考答案进行对比，评判回答的正确性和完整性。
	评估方式	LLM评估
	评估目标	文本、输出质量
	应用场景	有明确标准答案的评测场景，如知识问答、客服回复、信息提取等，需要检验智能体输出是否与参考答案一致。
评分标准	1.0分	输出正确、准确、真实，且完整覆盖参考答案的核心要点。
评分标准	0.0分	输出错误、不准确、不真实，或遗漏核心要点。

评估器参数说明：

使用该评估器前，需要在评测集中为每条测试数据准备好input（用户问题）和reference_output（标准参考答案）。评估时平台会自动将智能体的实际输出填入agent_output，三项数据共同传入评估Prompt进行评分。各字段的推荐映射方式如下：

输入格式示例：

{
  "input": "中国的首都是哪里",
  "actual_output": "中国的首都是北京",
  "reference_output": "北京"
}

输出格式示例：

{
  "score": 1,
  "reason": "实际输出包含参考答案'北京'，且回答正确、准确，完整回应了问题。"
}

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨