对比评估任务结果
在智能体的开发与迭代过程中(如调整Prompt指令、更换底层模型或增删工具插件),单次评估结果往往无法直观回答核心诉求:新版本真的比旧版本更好吗?优化了A能力,是否导致了B能力的退化?
为此,平台提供评估任务结果的对比功能,采用控制变量的实验思路,帮助您精准定位优化效果。
约束限制
| 限制 | 说明 |
|---|---|
| 评测集版本 | 对比的评估任务必须基于同一评测集。 |
| 评估任务的状态 | 评估任务状态必须为成功或部分成功。 |
| 对比任务数量 | 单次最多支持5个评估任务进行对比。 |
| 任务类型 | 仅支持对离线评估进行对比。 |
发起对比
- 登录AgentArts智能体平台。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击目标任务“操作”列的“对比”。
- 在“选择对比对象”弹框中,勾选需要对比的评估任务,单击“确定”。 图1 选择对比对象
查看对比报告
在“对比报告”页签中,您可以全面、直观地查看对比评估任务的总览结果。页面分为以下三大区域,从多维度呈现对比结果:
- 总览:采用综合得分、雷达图和表格结合的方式,直观展示基线组与对照组中每个评估器的得分详情,并标注各组最高得分,方便快速查看数据。
- 评估器指标:按评估器维度展示,通过柱状图清晰对比每个评估任务在该评估器中的得分情况。
- 评估器运行时指标:展示每个评估任务中评估器运行耗时和Tokens消耗情况。
查看对比数据
通过数据明细对比,您可以深入分析特定数据项,对单条评测数据在不同评估任务中的表现进行详细对比。通过检查实际输出与评估器得分,验证宏观指标的准确性,从而得出对比结论,指导下一步业务决策(如发布表现更佳的版本上线,或针对问题案例进行进一步优化)。
数据明细除包含评测集自身数据外,还包含以下信息:
| 分类 | 列信息 |
|---|---|
| 基线组 | 评测对象实际输出、各评估器指标得分、评估任务中该条数据的执行状态、模型调用耗时和Tokens消耗。 |
| 对照组 | 评测对象实际输出、各评估器指标得分、评估任务中该条数据的执行状态、模型调用耗时和Tokens消耗。 |
更多操作
在对比评估结果中,支持以下操作。
| 操作 | 说明 |
|---|---|
| 切换基线任务 | 在“对比任务结果”页面,单击右上角“基线”右侧的下拉按钮,切换基线任务。 图4 切换基线任务 |
| 修改对比对象 |
|
