更新时间:2026-03-10 GMT+08:00
分享

快速完成一次智能体评估

评估是智能体从开发走向生产的关键环节。本章以一个简单的单智能体为例,演示如何在AgentArts中快速完成创建与评估全流程。

示例中首先会构建一个基础单智能体,随后使用平台预置的评测数据集和评估器,对其进行自动化质量评估。

步骤一:创建单智能体

示例中创建一个基础的智能助手单智能体,并添加网络搜索MCP。

  1. 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
  2. 在左侧导航栏中选择“开发中心 > 智能体管理”,在“单智能体”页签,单击“创建单智能体”。
  3. 填写单智能体名称和描述后(可填写为智能助手),单击“立即创建”。
  4. 进入智能体编辑页面,在左侧区域输入以下提示词。

    你是一个通用的AI智能助手。
    
    你的主要能力是帮助用户解决各类问题,包括知识问答、生活咨询、工作建议等。
    
    你配备了名为“Bing”的联网搜索工具。请遵循以下规则使用它:
    - 需要获取最新资讯、实时数据或验证最新事实时,主动调用 Bing 工具
    - 普通常识问题无需搜索,直接回答即可
    
    请始终用友好、清晰的方式回复用户,保持回答简洁实用。

  5. 在编辑页面中间区域,选择任一可用模型,并添加“Bing”MCP服务。

    添加MCP服务时,若没有提前安装过Bing MCP,请选择通过“平台模板创建”。Bing为平台预置MCP,提供联网搜索能力,且无需鉴权可以直接安装使用。等待MCP安装成功后添加MCP。

    图1 创建MCP
    图2 安装MCP
    图3 添加MCP

  6. 提示词、模型、MCP填选完成后可进行测试,验证回答是否正常。

    图4 测试单智能体

步骤二:评估智能体

单智能体创建完成后,进入评估环节。本步骤将使用平台预置评测集(包含问题和标准答案),使用正确性、引用相关性、参考答案遵从度三个评估器,对智能体进行自动化评测。通过实际回答与标准答案的对比,生成量化评分,帮助客观判断智能体表现。

  1. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签单击“创建评估任务”。
  2. 填写评估任务名称和描述,可填写为“智能体评估”。执行类型选择“立即执行”。评估对象选择步骤一中创建的智能体。

    图5 创建评估任务

  3. 选择平台预置的评测集。

    图6 选择评测集

  4. 选择默认的评估器。使用默认评测集时,默认评估器中各字段已经完成对应,无需额外修改。

    图7 选择评估器

  5. 单击右下角“发布任务”,执行评估任务。

    任务执行后,会展示出当前在运行的具体任务。等待所有任务均运行“成功”后即可步骤三:获取评测报告

    评估过程会将评测集的问题发送给智能体,智能体产生的答案将于评测集中的参考答案进行比对评分。

    图8 查看评估任务

步骤三:获取评测报告

  1. 等待所有评估任务都执行“成功”后,单击“评估报告”可获取当前任务的评估得分信息。

    图9 查看评估任务
    图10 获取评估报告

相关文档