文本等值判断

文本等值判断评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	文本等值判断
效果说明	功能概述	检查文本输出是否完全匹配。
	评估方式	代码评估
	评估目标	文本、输出匹配
	适用场景	离线评估
	应用场景	有明确标准答案的评测场景，如知识问答、客服回复、信息提取等，需要检验智能体输出是否与参考答案完全一致。
评分标准	1.0分	文本完全匹配。
评分标准	0.0分	文本不匹配。

评估器参数说明：

使用该评估器前，需要在评测集中为每条测试数据准备好reference_output（标准参考答案）。评估时平台会自动将智能体的实际输出填入actual_output，两项数据共同传入评估器进行评分。各字段的推荐映射方式如下：

输入格式示例：

{
  "actual_output": "中国的首都是北京",
  "reference_output": "中国的首都是北京"
}

输出格式示例：

{
  "score": 1.0,
  "reason": "actual_output与reference_output匹配。actual_output: '北京是中国的首都。', reference_output: '北京是中国的首都。'"
}

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨