快速完成一次智能体评估
智能体开发完成后,直接上线往往面临幻觉多(胡说八道)、工具调用错误、答非所问等风险。如何在上线前量化它的能力?如何知道修改了一句Prompt后,智能体变聪明了还是变笨了?这就是智能体评估的核心价值所在。
为了方便理解,可以将“智能体评估”看作一次“模拟考试”:
- 评测对象(考生):开发好的智能体。
- 评测集(考卷):要考察智能体的哪些边界问题。
- 评估器(阅卷官):用什么标准来打分(严格还是宽松,看格式还是看逻辑)。
- 评估任务(模考):智能体上线前的一次全面评估。
本示例以用户最典型的“企业知识问答RAG智能体”为例,演示如何在AgentArts中快速完成从创建、评估到调优的完整闭环。
步骤一:创建智能体
示例中将创建一个“企业知识问答RAG智能体”,并为其接入知识库。
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“开发中心 > 智能体管理”,在“单智能体”页签,单击“创建单智能体”。图1 创建单智能体

- 填写名称和描述为“企业知识问答RAG智能体”后,单击“立即创建”。
- 在智能体编辑页面,在提示词输入框中填写“企业知识问答RAG智能体”后,单击
图标,使用AI智能优化提示词。图2 智能优化提示词
- 在智能体编辑页面,添加知识库。在弹窗中单击“新建知识库”。图3 新建知识库

- 选择“默认”知识库后单击“确定”。图4 选择默认知识库

- 填写知识库名称和描述为“企业知识库”;向量模型选择pangu_embedding;精排模型选择pangu_rerank;解析配置全选,拆分配置使用默认。单击“确定完成知识库的创建”图5 创建知识库

- 下载AgentArts官方文档(产品介绍文档)作为示例。并上传至知识库中,等待文档解析状态变为“成功”后即可使用该知识库。图6 下载文档示例
图7 上传文档至知识库
- 返回智能体编辑页面,输入问题“什么是AgentArts”进行测试。测试完成后,单击右上角“提交版本”进行发布。
只有经过发布的智能体,才可以进行评估。
图8 测试并发布智能体
步骤二:设计评测集
评估的第一步是准备评测集。考卷出的好不好,直接决定了评估能不能真正暴露智能体的问题。平台预置了“科学知识”评测集,相关场景的智能体可以直接使用。如果您是第一次创建评估任务,可以使用预置评测集+默认评估器的组合快速体验评估流程。由于本示例是评估RAG智能体,下方内容针对RAG场景的评测集进行了专门设计,建议参考。

在AgentArts中评测集不是简单的问题列表。创建评测集时需要考虑到执行哪一类评估(选择哪种评估器),数据内容需要科学覆盖业务的核心场景和边界问题。建议创建评测集前,掌握以下两大核心方法论:
- 智能体开发期(构造数据集):
建议针对每个业务场景,至少准备30-50条典型数据。题目覆盖维度上,不仅要有“常规必答题(正向用例)”,还要重点设计“陷阱题(如对抗性用例/测试AI的拒答能力等)”和“边界题(意图模糊)”。
- 智能体运营期(Trace数据回流):
智能体上线后,评测集需要持续迭代。结合AgentArts的观测(Trace)功能,把线上用户真实问题中的BadCase数据提取出来,补充进评测集。用真实发生的痛点来不断打磨智能体。
创建评测集时,平台默认提供了2个参数字段:input(输入问题)、reference_output(预期答案)。创建评估任务时,input会输入给智能体产生actual_output(真实回答)。reference_output、actual_output会通过评估器进行比较,最终得到评估结果。

不同的评估器,需要的输入参数是有差异的。需要根据评测目的,提前设计好评测集的字段。不可以盲目地只使用input、reference_output这两列数据。
- 常规问答评估(配置“正确性”评估器)
评估目的:需要比对实际输出和标准答案。
评测集设计:只需保留平台默认的input(输入问题) 和reference_output(预期答案)即可。
- 知识库/RAG防编造评估(配置“幻觉现象”评估器)
评估目的:幻觉评估的核心是查验AI是否“脱离了参考资料自行编造”。因此评估器不仅需要问题和答案,还需要原文档切片作为对比依据。
评测集设计:除了基础的两列,必须新增一个名为context(参考上下文)的数据列。
- 文案排版评估(配置“格式检查”评估器)
评估目的:只校验输出结果中的序号、角标、引用是否规范,不需要业务参考答案。
评测集设计:重点配置好input(确保包含明确的排版指令),不需要reference_output。
掌握了上述原理后,来看看如何将这些设计落地到平台配置中。以“知识库/RAG防编造评测”为例,构造一个带有context(参考上下文)的评测集。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评测集”页签单击“创建评测集”。
- 填写评测集基础信息。输入评测集名称(如防幻觉测试集)和描述。
- 配置基础数据列。
- 配置input:这是智能体的输入参数描述(即用户的提问)。您可以为其选择合适的数据类型,并设置是否为“必填”。
- 配置reference_output:这是期望智能体给出的标准参考答案。您可以完善它的描述信息,帮助后续评估器更好地理解预期标准。
- 添加自定义配置列。
在“添加列”中新增context参数,描述填入“该问题对应的知识库检索切片原文”。
图10 创建评测集
- 单击“确定”完成评测集的创建。
完成以上字段的配置后,您可以直接在平台上手动录入符合该格式的测试数据,或上传匹配该表头的CSV/Excel文件。保存后,一份完美契合业务场景与高阶评估器的“考卷”就诞生了,随时可以在“评估任务”中被调用。
- 填写评测集数据。
- 评测集创建成功后,会自动跳转至评测集详情页面,在该页面选择“添加数据 > 手动添加”。 图11 添加数据

- 按照页面提示,输入对应的测试数据文本。
什么是AgentArts
reference_output
AgentArts是一个企业级一站式智能体构建与运营平台,旨在通过可视化、低代码方式快速搭建各类AI应用。
contextAgentArts是一个企业级一站式智能体构建与运营平台。它打破了传统开发壁垒,支持研发与业务人员通过可视化、低代码的方式,快速搭建从简单助手到复杂业务流的各类AI应用。 平台覆盖了智能体全生命周期管理,核心能力包括: 灵活编排:支持单智能体、工作流及多智能体协作模式,满足复杂逻辑需求。 能力集成:内置丰富的应用模板、提示词模板以及预置模型,支持MCP(Model Context Protocol)、插件及知识库(RAG)的无缝接入,智能扩展Agent边界。 可信运维:提供全链路观测、调用链追踪及自动化效果评估,确保应用兼具高性能与高安全性。 AgentArts致力于降低大模型应用门槛,助力企业将AI能力与实际业务深度融合,实现规模化落地。
图12 填写测试数据
- 评测集创建成功后,会自动跳转至评测集详情页面,在该页面选择“添加数据 > 手动添加”。
- 提交评测集。评测集只有提交后才会发布为正式版本,并供后续的评估任务使用。图13 提交评测集

步骤三:选择评估器
评测集准备完成后,下一步是决策如何对智能体进行打分、用什么标准打分。在AgentArts中,这个角色由评估器担任。
每个评估器本质上是一个带有评分Prompt的大模型裁判,它接收特定的输入参数,输出一个分数和评分理由。平台预置了多种评估器,覆盖正确性、创意性、幻觉现象等多种维度,详细介绍请参考预置评估器。
评估器不是越多越好,需要根据评估的目的进行选择。如果您是第一次体验评估流程,使用默认评估器即可快速跑通全流程。
在本示例的“企业知识问答(RAG)智能体”场景下,最核心的痛点是防止AI胡编乱造,因此推荐使用“正确性+幻觉检查”评估器组合。具体配置操作请参考步骤四:创建评估任务。

步骤四:创建评估任务
评估执行时,系统将评测集中的每个问题逐一发送给智能体,获取智能体的实际回答后,由评估器将实际回答与参考答案进行比对和打分。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签单击“创建评估任务”。
- 填写评估任务名称和描述,可填写为“智能体评估”。执行类型选择“立即执行”。评估对象选择步骤一中创建的智能体。图15 选择评估对象

- 评测集选择步骤二中创建的“防幻觉测试集”。调整使用的评估器,选择正确性、幻觉现象评估器。图16 选择评测集和评估器

展开评估器的字段映射,参考下图检查评估器的字段与评测集/评估对象的字段映射关系是否正确,如果与下图不一致,请进行修改。特别注意检查“幻觉现象”评估器的context字段,是否已正确映射为您在评测集中新增的context列。
图17 检查评估器字段映射
- 评估任务配置完成后,单击“发起任务”。
任务执行后,会展示出当前在运行的具体任务。等待所有任务均运行“成功”后即可步骤五:分析评估报告、复核评估数据。
图18 查看评估任务
步骤五:分析评估报告、复核评估数据
等待评估任务状态变更为“成功”后,单击操作列“详情”,可查看详细的评估过程数据,以及得分、得分理由。单击“评估报告”可查看详细的评分数据。可参考以下阶段对评估报告进行分析。
- 看整体:通过总体得分和各维度评分数据,了解当前智能体的整体水位(例如,整体正确性得分较高,但“幻觉现象”得分极低等)。 图19 查看评估报告

- 抓BadCase:在“详情”数据和报告明细中,查看得分低的数据、评分理由。将智能体的实际输出和参考答案进行比对,分析差异。 图20 查看评估详情

- 人工标注与“改卷”:大模型“阅卷官”虽然高效,但并非 100% 完美。AgentArts 提供了强大的“标注评估结果”功能,让您可以对自动化评测结果进行人工干预:
- 人工改分(修正评判):如果您认为评估器打分过于严苛或存在误判,您可以直接修改该条测试的评估得分。修改后的分数将作为“真值”保存,让统计数据更加精准。
- 打标签(错题归类):您可以为分析过的正例、BadCase打上自定义标签(例如:Prompt指令弱、知识库缺失、API提参问题)。这不仅方便团队协作分发Bug,更能让您在下次迭代时,针对性地提取某一类标签的数据进行专项复测。
图21 人工校准评分
图22 给评估结果添加标签
- 优化智能体:根据Badcase的失败原因采取针对性优化:
- 如果是“工具提参错误”:修改插件/MCP的描述让大模型更容易理解含义,或在提示词中约束工具的使用时机。
- 如果是“发生幻觉/编造”:检查是知识库中是否有问题对应的文档,或在提示词中补充强规则“当搜索不到结果时,请明确回复我不知道,而不是直接生成答案”。
- 回归测试:完成对智能体的修改后,重新创建一个评估任务。通过前后两次报告的得分对比,验证改进方案是否有效。

