对比评估任务结果

在智能体的开发与迭代过程中（如调整Prompt指令、更换底层模型或增删工具插件），单次评估结果往往无法直观回答核心诉求：新版本真的比旧版本更好吗？优化了A能力，是否导致了B能力的退化？

为此，平台提供评估任务结果的对比功能，采用控制变量的实验思路，帮助您精准定位优化效果。

在“对比报告”页签中，您可以全面、直观地查看对比评估任务的总览结果。页面分为以下三大区域，从多维度呈现对比结果：

图2 对比报告

通过数据明细对比功能，您可以深入分析特定数据项，详细查看单条评测数据在不同评估任务中的表现差异。通过检查实际输出与评估器得分，验证宏观指标的准确性，从而得出对比结论，指导下一步业务决策（如发布表现更佳的版本上线，或针对问题案例进行进一步优化）。

数据明细除包含评测集自身数据外，还包含以下信息：

表2 对比数据信息
分类	列信息
基线组	评测对象实际输出、各评估器指标得分、评估任务中该条数据的执行状态、模型调用耗时和Tokens消耗。
对照组	评测对象实际输出、各评估器指标得分、评估任务中该条数据的执行状态、模型调用耗时和Tokens消耗。

图3 对比数据

表3 更多操作
操作	说明
切换基线任务	在“对比任务结果”页面，单击右上角“基线”右侧的下拉按钮，切换基线任务。图4 切换基线任务
修改对比对象	在“对比任务结果”中，单击右上角的“管理任务”。在“选择对比对象”的弹框中，重新选择需要对比的评估任务。选择完成后，单击“确定”。对比结果将根据重新选择的对象自动刷新。