文档首页/ 智果（AgentArts）智能体平台/ 最佳实践/ 评估实践/ 评估器最优组合实践

更新时间：2026-07-13 GMT+08:00

评估器最优组合实践

在AgentArts平台中预置了40+不同维度的评估器，很多新手开发者在发起评估任务时往往会犯“选择困难症”，最后为了省事挑选一个最基础的“正确性”评估器。看到评估满分时，即认为智能体已经满足了上线条件。

但在真实的业务投产中，往往会面临：

回答风格不符：智能体给出的答案确实“正确”，但是内容生硬，排版结构混乱。
答案对，但过程错误：订票智能体确实“正确”地返回了航班，但它是直接用大模型常识“猜”出来的，根本没有调用订票API。
合规风险：面对用户的恶意挑衅，智能体“正确”地回答了问题，却附带了严重的偏见与违规言论。

在智能体的评估体系中，不同的评估器扮演着不同的角色，依靠单一的评估维度，根本无法衡量生产级智能体的真实能力。优秀的评估方法，必须是一套相互制约、相互补充的“评估器组合”。

评估器执行逻辑

AgentArts的评估器并不是传统的关键字匹配，而是采用了大模型作为裁判的机制。

在后台，平台会将您的评测集和智能体回答，连同该评估器专属的“裁判prompt”一起发给评测大模型。裁判会在内部进行严密的逻辑推演，最终给出得分和判分理由。

平台支持的评估器请参考预置评估器。从评估器的介绍、输入输出参数、打分标准上进行分类，可以将评估器分为以下几类：

结果导向型评估器：盯着标准答案找差距

这类评估器是“严苛的阅卷老师”，必须依赖评测集中的预设的reference_output（标准参考答案）或者context（参考资料）才能工作

示例：正确性、参考答案遵从度评估器

判分逻辑：它只看核心事实是否对齐，一旦发现数值错误或关键点遗漏，直接判0分。
示例：
- 用户问题：“1+1等于多少”
- 参考答案：“1+1=2”
- Agent输出：“1+1=2” -> 得分 1.0（包含核心要点）
- Agent输出：“1+1=3” -> 得分 0.0（事实错误）

工具调用链类型评估器：盯着调用链找差距

这类评估器不关心最终Agent生成的内容，只关注Agent的调用轨迹和工具调用信息，检查调用链、工具选择、参数提取是否正确。

示例：工具选择质量、工具参数正确性评估器

判分逻辑：工具选择质量评估器对比tools_called（Agent运行过程中实际调用的工具），查验智能体是否捏造了不存在的工具或选错了功能。工具参数正确性评估器则是检查传入工具的参数是否漏填，类型格式是否正确。
示例：
- 场景：查询天气
- 低分调用链：Agent选择了“查新闻”工具
- 高分调用链：直接识别意图 -> 调用天气工具获取结果 -> 生成回复。得分1.0（逻辑严密，无冗余）

体验感知型评估器：盯着用户感受找瑕疵

这类评估器主要关注输出是否自然、安全。

示例：AI味检查、不敏感性评估器

判分逻辑：考察actual_output（实际输出）的文本表现
示例：
- Agent输出：当然，我很乐意为您推荐。首先，《星际穿越》是一部不容错过的经典之作。其次，《盗梦空间》也值得一看。此外，《银翼杀手》在视觉效果上非常震撼。综上所述，这些电影都非常适合周末观看。希望这些建议对您有所帮助！（具有典型的AI输出痕迹，对话不自然）

选择合适的评估器

选择评估器的过程是基于业务目标构建一套相互制约、相互补充的验证体系，以下通过示例讲解如何组合使用评估器。

场景1：企业知识问答

评估目标：确保回答严格基于文档，不瞎编，且回答准确。v

方法论拆解：

防幻觉：Agent挂载知识库后可以有效防止大模型胡说八道。为了检查知识库文档的遵从度，引入“幻觉现象”评估器，将Agent输出与评测集中的context（知识库原始参考片段）进行比对，确保模型输出基于可靠信息源，避免生成虚构事实、错误数据或无法验证的回答。
保准确：使用“知识问答-真实准确”、“正确性”评估器。配合reference_output（人工预设的标准答案），确保智能体没有遗漏核心事实，也没有答非所问。
守边界：使用“拒答检测”评估器。当用户提问超出知识库范围时，确保智能体能够诚实回答“不知道”，而不是强行编造。

场景2：工具调用

评估目标：确保Agent运行过程中工具选择正确、工具参数填写正确。

方法论拆解：

选对工具：使用“工具选择质量”评估器。检查智能体是否在第一步就选对了正确的API接口，避免“张冠李戴”。
填对工具参数：使用“轨迹-工具参数填充正确性”评估器。这是最严苛的检查，重点审查参数是否缺失、格式是否正确（如日期格式、JSON结构），防止下游系统报错。
检查调用顺畅性：使用“轨迹质量”评估器。评估整个调用链条的逻辑是否连贯，是否存在死循环或无效的冗余调用。

场景3：内容创作

评估目标：要求Agent回答新颖、有吸引力，且排版符合要求，拒绝陈词滥调。

方法论拆解：

去AI味：使用“AI味检查”。创意文案最忌讳“综上所述”、“首先其次”这种八股文，必须严查，确保文案像真人写的。
求创新：使用“创意性”。该评估器专门检测是否是“陈词滥调”，鼓励“认知反差”或“新颖视角”。
看细节：使用“细节丰富度” + “格式检查”。确保文案内容不空洞，且严格遵守了用户的排版约束。
看可用性：使用“文本可用性”。评估生成的文案是否可以直接投入使用，无需大量人工修改。

父主题： 评估实践

上一篇：评测集设计实践

下一篇：企业知识问答助手（RAG）智能体评估

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

评估器最优组合实践

评估器执行逻辑

结果导向型评估器：盯着标准答案找差距

工具调用链类型评估器：盯着调用链找差距

体验感知型评估器：盯着用户感受找瑕疵

选择合适的评估器

场景1：企业知识问答

场景2：工具调用

场景3：内容创作

相关文档

意见反馈

文档内容是否对您有帮助？