评估介绍

随着大模型技术快速发展与广泛应用，智能体评估已成为AI应用开发的关键环节。传统评估依赖人工操作，从评测集构建、任务执行到报告输出，流程繁琐、效率低、易出错，且难以覆盖全场景、缺乏标准化评测能力，影响评估准确性与可靠性。

AgentArts智能体开发平台引入了评估功能，内置可直接使用的评估器，支持快速构建评测集、配置评估器、执行评估任务并自动生成评估报告，大幅提升评估效率与客观性。

评估是对智能体表现进行系统化、自动化检验的过程。通过预设的评估标准，对输出质量、内容正确性、工具调用合理性等维度进行量化打分，帮助你客观了解实际效果，并为后续优化提供依据。

预置评估器示例：

预置评估器的更多信息，请参考预置评估器。

为什么需要评估：

AgentArts提供了离线评测和在线评测两种方式。

如何选择评估方式

应用上线后，基于Trace数据（应用运行过程的详细调用链数据）设置自动化任务，自动采样Trace数据，获取输入、输出并进行在线评测，帮助开发者及时了解应用质量、洞察问题并进行优化，降低人工干预成本。

在线评估任务一般由以下两个要素构成：

表1 评估核心说明
要素	说明
评估对象	被评估的目标，用于采集该对象生成的数据进行评估。
评估器	定义评估的维度和评分标准，负责自动打分。平台提供多种预置评估器，也支持自定义。

适用场景：

应用上线后，对应用进行持续化的验证。具体流程如下：
1. 发起调用：通过调用智能体运行API接口，触发智能体执行任务。
2. 生成Trace数据：智能体在运行过程中将运行数据上报，生成Trace数据。
3. 执行评估：系统获取Trace数据后，根据配置自动执行评估任务并输出结果。

应用在正式发布前，通过在各种预设场景下测试智能体或工作流的响应，确保其表现符合预期标准，提前发现并解决潜在问题，有效降低上线后可能出现的质量问题风险。

离线评估任务一般由以下三个要素构成：

表2 评估核心说明
要素	说明
评测集	一组用于评估的数据，由用户手动编辑创建，通常包含测试输入、预期输出等字段。创建评测集请参考评测集。
评估对象	被评估的目标，可以是一个智能体，也可以是评测集中的数据本身。
评估器	定义评估的维度和评分标准，负责自动打分。平台提供多种预置评估器，也支持自定义。查看预置评估器请参考预置评估器。

离线提供两种评估模式（评估智能体、评估数据集），区别在于评估的数据从哪来：

表3 离线评估模式对比
对比维度	评估智能体	评估评测集
核心区别	对智能体实际的运行结果进行评估。	直接对评测集中已有的数据进行评估。
是否运行智能体	是	否
需要选择智能体	是	否
评测集中需要包含	输入数据（input）、预期输出（reference_output）	输入数据（input）、预期输出（reference_output）说明：当使用评测集作为评估对象时，需评测集的数据列与评估器中定义的字段相匹配。
消耗资源	是（智能体回答问题时产生的Token消耗+评估器中的大模型产生的Token消耗）	是（评估器中的大模型产生的token消耗）
使用说明	智能体开发平台对评估任务的创建和使用设置了明确的资源上限：每个用户最多可创建10个评估任务。每个评估任务中，最多可配置5个评估器。在评估过程中，评估器运行所产生的大模型token消耗，由评估模块内预置的专属资源覆盖，不计入平台赠送的200万免费token，也不消耗用户自购的token。

模式一：评估智能体
一句话理解：让智能体现场作答，然后评估它的回答与参考答案之间的差异。

准备一组测试问题和对应的参考答案（评测集），平台将这些问题逐条发送给智能体，智能体实时运行并生成回答，然后由评估器对每条回答进行打分。

图1 评估智能体执行流程

适用场景：
- 智能体开发完成后，用标准测试集全面检验效果。
- 修改提示词、更换模型、调整知识库后，对比优化前后的评分变化。
- 定期对智能体进行回归测试，确认效果没有退化。
模式二：评估评测集
一句话理解：不运行智能体，直接对评测集中的数据进行评估。

如果需要验证评测集中的数据是否符合预期时，可以直接用评估器对数据进行评估打分。评估器本质上是由大模型+评估提示词构成的，它会逐条读取评测集中的数据，按照评估提示词中定义的评分标准进行判断并给出分数。换句话说，这个模式是用AI来评判数据的质量。

图2 评估评测集执行流程

适用场景：
- 已有一批问答数据（来自人工编写、线上日志导出、外部系统等），想借助AI批量检验数据质量。
- 不想消耗智能体运行资源（如Token费用），仅对现有数据做评估。
- 更换了评估标准或评估器后，想用新的评估维度重新评估同一批数据。