快速完成一次智能体评估

智能体开发完成后，直接上线往往面临幻觉多（胡说八道）、工具调用错误、答非所问等风险。如何在上线前量化它的能力？如何知道修改了一句Prompt后，智能体变聪明了还是变笨了？这就是智能体评估的核心价值所在。

为了方便理解，可以将“智能体评估”看作一次“模拟考试”：

评测对象（考生）：开发好的智能体。
评测集（考卷）：要考察智能体的哪些边界问题。
评估器（阅卷官）：用什么标准来打分（严格还是宽松，看格式还是看逻辑）。
评估任务（模考）：智能体上线前的一次全面评估。

本示例以用户最典型的“企业知识问答RAG智能体”为例，演示如何在AgentArts中快速完成从创建、评估到调优的完整闭环。

步骤一：创建智能体

示例中将创建一个“企业知识问答RAG智能体”，并为其接入知识库。

登录AgentArts智能体开发平台，在左侧导航栏“个人空间”区域，选择目标空间。
在左侧导航栏中选择“开发中心 > 智能体管理”，在“单智能体”页签，单击“创建单智能体”。
图1 创建单智能体
填写名称和描述为“企业知识问答RAG智能体”后，单击“立即创建”。
在智能体编辑页面，在提示词输入框中填写“企业知识问答RAG智能体”后，单击图标，使用AI智能优化提示词。
图2 智能优化提示词
在智能体编辑页面，添加知识库。在弹窗中单击“新建知识库”。
图3 新建知识库
选择“默认”知识库后单击“确定”。
图4 选择默认知识库
填写知识库名称和描述为“企业知识库”；向量模型选择pangu_embedding；精排模型选择pangu_rerank；解析配置全选，拆分配置使用默认。单击“确定完成知识库的创建”
图5 创建知识库
下载AgentArts官方文档（产品介绍文档）作为示例。并上传至知识库中，等待文档解析状态变为“成功”后即可使用该知识库。
图6 下载文档示例
图7 上传文档至知识库
返回智能体编辑页面，输入问题“什么是AgentArts”进行测试。测试完成后，单击右上角“提交版本”进行发布。
只有经过发布的智能体，才可以进行评估。
图8 测试并发布智能体

步骤二：设计评测集

评估的第一步是准备评测集。考卷出的好不好，直接决定了评估能不能真正暴露智能体的问题。平台预置了“科学知识”评测集，相关场景的智能体可以直接使用。如果您是第一次创建评估任务，可以使用预置评测集+默认评估器的组合快速体验评估流程。由于本示例是评估RAG智能体，下方内容针对RAG场景的评测集进行了专门设计，建议参考。

图9 预置评测集

在AgentArts中评测集不是简单的问题列表。创建评测集时需要考虑到执行哪一类评估（选择哪种评估器），数据内容需要科学覆盖业务的核心场景和边界问题。建议创建评测集前，掌握以下两大核心方法论：

智能体开发期（构造数据集）：
建议针对每个业务场景，至少准备30-50条典型数据。题目覆盖维度上，不仅要有“常规必答题（正向用例）”，还要重点设计“陷阱题（如对抗性用例/测试AI的拒答能力等）”和“边界题（意图模糊）”。
智能体运营期（Trace数据回流）：
智能体上线后，评测集需要持续迭代。结合AgentArts的观测（Trace）功能，把线上用户真实问题中的BadCase数据提取出来，补充进评测集。用真实发生的痛点来不断打磨智能体。

创建评测集时，平台默认提供了2个参数字段：input（输入问题）、reference_output（预期答案）。创建评估任务时，input会输入给智能体产生actual_output（真实回答）。reference_output、actual_output会通过评估器进行比较，最终得到评估结果。

不同的评估器，需要的输入参数是有差异的。需要根据评测目的，提前设计好评测集的字段。不可以盲目地只使用input、reference_output这两列数据。

常规问答评估（配置“正确性”评估器）
评估目的：需要比对实际输出和标准答案。
评测集设计：只需保留平台默认的input（输入问题）和reference_output（预期答案）即可。
知识库/RAG防编造评估（配置“幻觉现象”评估器）
评估目的：幻觉评估的核心是查验AI是否“脱离了参考资料自行编造”。因此评估器不仅需要问题和答案，还需要原文档切片作为对比依据。
评测集设计：除了基础的两列，必须新增一个名为context（参考上下文）的数据列。
文案排版评估（配置“格式检查”评估器）
评估目的：只校验输出结果中的序号、角标、引用是否规范，不需要业务参考答案。
评测集设计：重点配置好input（确保包含明确的排版指令），不需要reference_output。

掌握了上述原理后，来看看如何将这些设计落地到平台配置中。以“知识库/RAG防编造评测”为例，构造一个带有context（参考上下文）的评测集。

在左侧导航栏中选择“运营运维 > 评估”，在“评测集”页签单击“创建评测集”。
填写评测集基础信息。输入评测集名称（如防幻觉测试集）和描述。
配置基础数据列。
- 配置input：这是智能体的输入参数描述（即用户的提问）。您可以为其选择合适的数据类型，并设置是否为“必填”。
- 配置reference_output：这是期望智能体给出的标准参考答案。您可以完善它的描述信息，帮助后续评估器更好地理解预期标准。
添加自定义配置列。
在“添加列”中新增context参数，描述填入“该问题对应的知识库检索切片原文”。
图10 创建评测集
单击“确定”完成评测集的创建。
完成以上字段的配置后，您可以直接在平台上手动录入符合该格式的测试数据，或上传匹配该表头的CSV/Excel文件。保存后，一份完美契合业务场景与高阶评估器的“考卷”就诞生了，随时可以在“评估任务”中被调用。

填写评测集数据。

评测集创建成功后，会自动跳转至评测集详情页面，在该页面选择“添加数据 > 手动添加”。
图11 添加数据

按照页面提示，输入对应的测试数据文本。

input

什么是AgentArts

reference_output

AgentArts是一个企业级一站式智能体构建与运营平台，旨在通过可视化、低代码方式快速搭建各类AI应用。

context

AgentArts是一个企业级一站式智能体构建与运营平台。它打破了传统开发壁垒，支持研发与业务人员通过可视化、低代码的方式，快速搭建从简单助手到复杂业务流的各类AI应用。
平台覆盖了智能体全生命周期管理，核心能力包括：
灵活编排：支持单智能体、工作流及多智能体协作模式，满足复杂逻辑需求。
能力集成：内置丰富的应用模板、提示词模板以及预置模型，支持MCP（Model Context Protocol）、插件及知识库（RAG）的无缝接入，智能扩展Agent边界。
可信运维：提供全链路观测、调用链追踪及自动化效果评估，确保应用兼具高性能与高安全性。
AgentArts致力于降低大模型应用门槛，助力企业将AI能力与实际业务深度融合，实现规模化落地。

图12 填写测试数据
点击放大

提交评测集。评测集只有提交后才会发布为正式版本，并供后续的评估任务使用。
图13 提交评测集

步骤三：选择评估器

评测集准备完成后，下一步是决策如何对智能体进行打分、用什么标准打分。在AgentArts中，这个角色由评估器担任。

每个评估器本质上是一个带有评分Prompt的大模型裁判，它接收特定的输入参数，输出一个分数和评分理由。平台预置了多种评估器，覆盖正确性、创意性、幻觉现象等多种维度，详细介绍请参考预置评估器。

评估器不是越多越好，需要根据评估的目的进行选择。如果您是第一次体验评估流程，使用默认评估器即可快速跑通全流程。

在本示例的“企业知识问答（RAG）智能体”场景下，最核心的痛点是防止AI胡编乱造，因此推荐使用“正确性+幻觉检查”评估器组合。具体配置操作请参考步骤四：创建评估任务。

图14 查看预置评估器
点击放大

步骤四：创建评估任务

评估执行时，系统将评测集中的每个问题逐一发送给智能体，获取智能体的实际回答后，由评估器将实际回答与参考答案进行比对和打分。

在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签单击“创建评估任务”。
填写评估任务名称和描述，可填写为“智能体评估”。执行类型选择“立即执行”。评估对象选择步骤一中创建的智能体。
图15 选择评估对象
评测集选择步骤二中创建的“防幻觉测试集”。调整使用的评估器，选择正确性、幻觉现象评估器。
图16 选择评测集和评估器
展开评估器的字段映射，参考下图检查评估器的字段与评测集/评估对象的字段映射关系是否正确，如果与下图不一致，请进行修改。特别注意检查“幻觉现象”评估器的context字段，是否已正确映射为您在评测集中新增的context列。
图17 检查评估器字段映射
评估任务配置完成后，单击“发起任务”。
任务执行后，会展示出当前在运行的具体任务。等待所有任务均运行“成功”后即可步骤五：分析评估报告、复核评估数据。
图18 查看评估任务

步骤五：分析评估报告、复核评估数据

等待评估任务状态变更为“成功”后，单击操作列“详情”，可查看详细的评估过程数据，以及得分、得分理由。单击“评估报告”可查看详细的评分数据。可参考以下阶段对评估报告进行分析。

看整体：通过总体得分和各维度评分数据，了解当前智能体的整体水位（例如，整体正确性得分较高，但“幻觉现象”得分极低等）。
图19 查看评估报告
抓BadCase：在“详情”数据和报告明细中，查看得分低的数据、评分理由。将智能体的实际输出和参考答案进行比对，分析差异。
图20 查看评估详情
人工标注与“改卷”：大模型“阅卷官”虽然高效，但并非 100% 完美。AgentArts 提供了强大的“标注评估结果”功能，让您可以对自动化评测结果进行人工干预：
- 人工改分（修正评判）：如果您认为评估器打分过于严苛或存在误判，您可以直接修改该条测试的评估得分。修改后的分数将作为“真值”保存，让统计数据更加精准。
- 打标签（错题归类）：您可以为分析过的正例、BadCase打上自定义标签（例如：Prompt指令弱、知识库缺失、API提参问题）。这不仅方便团队协作分发Bug，更能让您在下次迭代时，针对性地提取某一类标签的数据进行专项复测。
图21 人工校准评分
图22 给评估结果添加标签
优化智能体：根据Badcase的失败原因采取针对性优化：
- 如果是“工具提参错误”：修改插件/MCP的描述让大模型更容易理解含义，或在提示词中约束工具的使用时机。
- 如果是“发生幻觉/编造”：检查是知识库中是否有问题对应的文档，或在提示词中补充强规则“当搜索不到结果时，请明确回复我不知道，而不是直接生成答案”。
回归测试：完成对智能体的修改后，重新创建一个评估任务。通过前后两次报告的得分对比，验证改进方案是否有效。