文本等值判断
文本等值判断评估器
| 分类 | 详情 | |
|---|---|---|
| 基础信息 | 评估器名称 | 文本等值判断。 |
| 效果说明 | 功能概述 | 检查文本输出是否完全匹配。 |
| 评估方式 | 代码评估。 | |
| 评估目标 | 文本、输出匹配。 | |
| 适用场景 | 离线评估 | |
| 应用场景 | 有明确标准答案的评测场景,如知识问答、客服回复、信息提取等,需要检验智能体输出是否与参考答案完全一致。 | |
| 评分标准 | 1.0分 | 文本完全匹配。 |
| 0.0分 | 文本不匹配。 | |
评估器参数说明:
| 参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
| 输入参数 | actual_output | 是 | 智能体针对该问题的实际输出结果。 |
| reference_output | 是 | 评测集中预设的标准参考答案,作为等值判断评判基准。 | |
| 输出参数 | score | 是 | 评估得分(0.0 / 1.0)。 |
| reason | 是 | 评分理由说明。 |
使用该评估器前,需要在评测集中为每条测试数据准备好reference_output(标准参考答案)。评估时平台会自动将智能体的实际输出填入actual_output,两项数据共同传入评估器进行评分。各字段的推荐映射方式如下:
输入格式示例:
{
"actual_output": "中国的首都是北京",
"reference_output": "中国的首都是北京"
} 输出格式示例:
{
"score": 1.0,
"reason": "actual_output与reference_output匹配。actual_output: '北京是中国的首都。', reference_output: '北京是中国的首都。'"
}