更新时间:2026-06-10 GMT+08:00
分享

对比评估任务结果

在智能体的开发与迭代过程中(如调整Prompt指令、更换底层模型或增删工具插件),单次评估结果往往无法直观回答核心诉求:新版本真的比旧版本更好吗?优化了A能力,是否导致了B能力的退化?

为此,平台提供评估任务结果的对比功能,采用控制变量的实验思路,帮助您精准定位优化效果。

约束限制

表1 使用限制

限制

说明

评测集版本

对比的评估任务必须基于同一评测集

评估任务的状态

评估任务状态必须为成功或部分成功

对比任务数量

单次最多支持5个评估任务进行对比。

任务类型

仅支持对离线评估进行对比。

发起对比

  1. 登录AgentArts智能体平台
  2. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击目标任务“操作”列的“对比”
  3. “选择对比对象”弹框中,勾选需要对比的评估任务,单击“确定”

    图1 选择对比对象

查看对比报告

在“对比报告”页签中,您可以全面、直观地查看对比评估任务的总览结果。页面分为以下三大区域,从多维度呈现对比结果:

图2 对比报告
  • 总览:采用综合得分、雷达图和表格结合的方式,直观展示基线组与对照组中每个评估器的得分详情,并标注各组最高得分,方便快速查看数据。
  • 评估器指标:按评估器维度展示,通过柱状图清晰对比每个评估任务在该评估器中的得分情况。
  • 评估器运行时指标:展示每个评估任务中评估器运行耗时和Tokens消耗情况。

查看对比数据

通过数据明细对比,您可以深入分析特定数据项,对单条评测数据在不同评估任务中的表现进行详细对比。通过检查实际输出与评估器得分,验证宏观指标的准确性,从而得出对比结论,指导下一步业务决策(如发布表现更佳的版本上线,或针对问题案例进行进一步优化)。

数据明细除包含评测集自身数据外,还包含以下信息:

表2 对比数据信息

分类

列信息

基线组

评测对象实际输出、各评估器指标得分、评估任务中该条数据的执行状态、模型调用耗时和Tokens消耗。

对照组

评测对象实际输出、各评估器指标得分、评估任务中该条数据的执行状态、模型调用耗时和Tokens消耗。

图3 对比数据

更多操作

在对比评估结果中,支持以下操作。

表3 更多操作

操作

说明

切换基线任务

“对比任务结果”页面,单击右上角“基线”右侧的下拉按钮,切换基线任务。

图4 切换基线任务

修改对比对象

  1. “对比任务结果”中,单击右上角的“管理任务”
  2. “选择对比对象”的弹框中,重新选择需要对比的评估任务。
  3. 选择完成后,单击“确定”。对比任务结果会根据重新选择的对比对象生成新的对比结果。

相关文档