更新时间:2026-04-15 GMT+08:00
分享

文本包含判断

文本包含判断评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

文本包含判断。

效果说明

功能概述

检查文本输出是否包含子字符串(多个字符串间逗号分隔)。

评估方式

代码评估。

评估目标

文本、包含判断。

适用场景

离线评估

应用场景

有明确标准答案的评测场景,如知识问答、客服回复、信息提取等,需要检验智能体输出是否包含参考答案。

评分标准

1.0分

文本包含参考答案。

0.0分

文本不包含参考答案。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

actual_output

智能体针对该问题的实际输出结果。

reference_output

评测集中预设的标准参考答案,作为文本包含评判基准。

输出参数

score

评估得分(0.0 / 1.0)。

reason

评分理由说明。

使用该评估器前,需要在评测集中为每条测试数据准备好reference_output(标准参考答案)。评估时平台会自动将智能体的实际输出填入actual_output,两项数据共同传入评估器进行评分。各字段的推荐映射方式如下:

输入格式示例:

{
  "actual_output": "这家餐厅的北京烤鸭非常好吃,强烈推荐!",
  "reference_output": "烤鸭, 炸鸡, 汉堡"
}

输出格式示例:

{
  "score": 1.0,
  "reason": "actual_output包含任意参考值。actual_output: '这家餐厅的北京烤鸭非常好吃,强烈推荐!', 参考值: ['烤鸭', '炸鸡', '汉堡']"
}

相关文档