快速完成一次智能体评估
评估是智能体从开发走向生产的关键环节。本章以一个简单的单智能体为例,演示如何在AgentArts中快速完成创建与评估全流程。
示例中首先会构建一个基础单智能体,随后使用平台预置的评测数据集和评估器,对其进行自动化质量评估。
步骤一:创建单智能体
示例中创建一个基础的智能助手单智能体,并添加网络搜索MCP。
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“开发中心 > 智能体管理”,在“单智能体”页签,单击“创建单智能体”。
- 填写单智能体名称和描述后(可填写为智能助手),单击“立即创建”。
- 进入智能体编辑页面,在左侧区域输入以下提示词。
你是一个通用的AI智能助手。 你的主要能力是帮助用户解决各类问题,包括知识问答、生活咨询、工作建议等。 你配备了名为“Bing”的联网搜索工具。请遵循以下规则使用它: - 需要获取最新资讯、实时数据或验证最新事实时,主动调用 Bing 工具 - 普通常识问题无需搜索,直接回答即可 请始终用友好、清晰的方式回复用户,保持回答简洁实用。
- 在编辑页面中间区域,选择任一可用模型,并添加“Bing”MCP服务。
添加MCP服务时,若没有提前安装过Bing MCP,请选择通过“平台模板创建”。Bing为平台预置MCP,提供联网搜索能力,且无需鉴权可以直接安装使用。等待MCP安装成功后添加MCP。
图1 创建MCP
图2 安装MCP
图3 添加MCP
- 提示词、模型、MCP填选完成后可进行测试,验证回答是否正常。
图4 测试单智能体
步骤二:评估智能体
单智能体创建完成后,进入评估环节。本步骤将使用平台预置评测集(包含问题和标准答案),使用正确性、引用相关性、参考答案遵从度三个评估器,对智能体进行自动化评测。通过实际回答与标准答案的对比,生成量化评分,帮助客观判断智能体表现。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签单击“创建评估任务”。
- 填写评估任务名称和描述,可填写为“智能体评估”。执行类型选择“立即执行”。评估对象选择步骤一中创建的智能体。
图5 创建评估任务
- 选择平台预置的评测集。
图6 选择评测集
- 选择默认的评估器。使用默认评测集时,默认评估器中各字段已经完成对应,无需额外修改。
图7 选择评估器
- 单击右下角“发布任务”,执行评估任务。
任务执行后,会展示出当前在运行的具体任务。等待所有任务均运行“成功”后即可步骤三:获取评测报告。
评估过程会将评测集的问题发送给智能体,智能体产生的答案将于评测集中的参考答案进行比对评分。
图8 查看评估任务

