评估器最优组合实践
在AgentArts平台中预置了30+不同维度的评估器,很多新手开发者在发起评估任务时往往会犯“选择困难症”,最后为了省事挑选一个最基础的“正确性”评估器。看到评估满分时,即认为智能体已经满足了上线条件。
但在真实的业务投产中,往往会面临:
- 回答风格不符:智能体给出的答案确实“正确”,但是内容生硬,排版结构混乱。
- 答案对,但过程错误:订票智能体确实“正确”地返回了航班,但它是直接用大模型常识“猜”出来的,根本没有调用订票API。
- 合规风险:面对用户的恶意挑衅,智能体“正确”地回答了问题,却附带了严重的偏见与违规言论。
在智能体的评估体系中,不同的评估器扮演着不同的角色,依靠单一的评估维度,根本无法衡量生产级智能体的真实能力。优秀的评估方法,必须是一套相互制约、相互补充的“评估器组合”。
评估器执行逻辑
AgentArts的评估器并不是传统的关键字匹配,而是采用了大模型作为裁判的机制。
在后台,平台会将您的评测集和智能体回答,连同该评估器专属的“裁判prompt”一起发给评测大模型。裁判会在内部进行严密的逻辑推演,最终给出得分和判分理由。
平台支持的评估器请参考预置评估器。从评估器的介绍、输入输出参数、打分标准上进行分类,可以将评估器分为以下几类:
结果导向型评估器:盯着标准答案找差距
这类评估器是“严苛的阅卷老师”,必须依赖评测集中的预设的reference_output(标准参考答案)或者context(参考资料)才能工作
示例:正确性、参考答案遵从度评估器
- 判分逻辑:它只看核心事实是否对齐,一旦发现数值错误或关键点遗漏,直接判0分。
- 示例:
- 用户问题:“1+1等于多少”
- 参考答案:“1+1=2”
- Agent输出:“1+1=2” -> 得分 1.0(包含核心要点)
- Agent输出:“1+1=3” -> 得分 0.0(事实错误)
工具调用链检类型评估器:盯着调用链找差距
这类评估器不关心最终Agent生成的内容只关注Agent的调用轨迹和工具调用信息,检查调用链、工具选择、参数提取是否正确。
示例:工具选择质量、工具参数正确性评估器
- 判分逻辑:工具选择质量评估器对比tools_called(Agent运行过程中实际调用的工具),查验智能体是否捏造了不存在的工具或选错了功能。工具参数正确性评估器则是检查传入工具的参数是否漏填,类型格式是否正确。
- 示例:
- 场景:查询天气
- 低分调用链:Agent选择了“查新闻”工具
- 高分调用链:直接识别意图 -> 调用天气工具获取结果 -> 生成回复。得分1.0(逻辑严密,无冗余)
体验感知型评估器:盯着用户感受找瑕疵
这类评估器主要关注输出是否自然、安全。
示例:AI味检查、不敏感性评估器
- 判分逻辑:考察actual_output(实际输出)的文本表现
- 示例:
- Agent输出:当然,我很乐意为您推荐。首先,《星际穿越》是一部不容错过的经典之作。其次,《盗梦空间》也值得一看。此外,《银翼杀手》在视觉效果上非常震撼。综上所述,这些电影都非常适合周末观看。希望这些建议对您有所帮助!(具有典型的AI输出痕迹,对话不自然)
选择合适的评估器
选择评估器的过程是基于业务目标构建一套项目制约、相互补充的验证体系,以下通过示例讲解如何组合使用评估器。
场景1:企业知识问答
评估目标:确保回答严格基于文档,不瞎编,且回答准确。
方法论拆解:
- 防幻觉:Agent挂载知识库后可以有效防止大模型胡说八道。为了检查知识库文档的遵从度,引入“幻觉现象”评估器,将Agent输出与评测集中的context(知识库原始参考片段)进行比对,确保模型输出基于可靠信息源,避免生成虚构事实、错误数据或无法验证的回答。
- 保准确:使用“知识问答-真实准确”、“正确性”评估器。配合reference_output(人工预设的标准答案),确保智能体没有遗漏核心事实,也没有答非所问。
- 守边界:使用“拒答检测”评估器。当用户提问超出知识库范围时,确保智能体能够诚实回答“不知道”,而不是强行编造。
场景2:工具调用
评估目标:确保Agent运行过程中工具选择正确、工具参数填写正确。
方法论拆解:
- 选对工具:使用“工具选择质量”评估器。检查智能体是否在第一步就选对了正确的 API 接口,避免“张冠李戴”。
- 填对工具参数:使用“轨迹-工具参数填充正确性”评估器。这是最严苛的检查,重点审查参数是否缺失、格式是否正确(如日期格式、JSON 结构),防止下游系统报错。
- 检查调用顺畅性:使用“轨迹质量”评估器。评估整个调用链条的逻辑是否连贯,是否存在死循环或无效的冗余调用。
场景3:内容创作
评估目标:要求Agent回答新颖、有吸引力,且排版符合要求,拒绝陈词滥调。
方法论拆解:
- 去AI味:使用“AI味检查”。创意文案最忌讳“综上所述”、“首先其次”这种八股文,必须严查,确保文案像真人写的。
- 求创新:使用“创意性”。该评估器专门检测是否是“陈词滥调”,鼓励“认知失调”或“新颖视角”。
- 看细节:使用“细节丰富度” + “格式检查”。确保文案内容不空洞,且严格遵守了用户的排版约束。
- 看可用性:使用“文本可用性”。评估生成的文案是否可以直接投入使用,无需大量人工修改。

