查看评估结果
前提条件
查看评估结果
评估结果页面是评估任务执行结果的详细视图,旨在帮助您从宏观统计下沉到微观案例,进行深度复盘。
- 数据分析
该页面涵盖了从输入到评估的完整过程。您不仅可以查看原始输入、智能体实际输出和设定的预期输出,还能获取评估器给出的具体得分以及详细的评分理由。通过直观对比“实际输出”与“预期输出”,您可以快速判断智能体的回答质量,定位回复偏差,从而有效验证评估结果的准确性。
- 深度分析与优化
详细的得分和得分理由能帮助您精确定位问题。例如,您可以识别出智能体是否存在“幻觉”、指令遵循是否严格,或者评估器是否出现了误判。这些洞察将直接指导您优化智能体或调整评估器的评分标准,从而提升整体评估体系的准确性。
- 高效筛选与聚焦
为了应对大量数据,页面提供了灵活的筛选功能。您可以根据属性快速过滤数据。
在“评估任务”页面,单击评估任务名称,可以进入评估结果页面查看Agent的评测数据、实际输出、期望输出,以及得分。单击操作列“详情”,可查看评估数据明细。
查看评估报告
在“评估报告”页签中,您可以全面、直观地查看评估任务的整体结果。页面采用模块化设计,从多个维度呈现评估数据,助力您高效分析与决策。其中,总览、评估器指标和评估器运行时指标区域默认展示;智能分析区域仅在开启智能分析功能时展示;人工标注统计区域仅在添加人工标注后展示。
- 智能分析:开启智能分析功能后,系统将调用大模型对评估结果进行智能总结,生成分析报告。报告主要包含以下内容:任务综合得分、智能体存在的问题及排行、核心缺陷的描述与依据,以及针对核心缺陷的修改建议。
- 总览:采用雷达图和表格样式,直观展示评测数据在评估器中的整体得分情况,包含:平均分、最高分、最低分和总分(注:分值范围取决于评估器配置,通常为 0-1分。)
- 评估器指标:按评估器维度展示,通过柱状图清晰对比每个评估任务在该评估器中的得分情况。
- 评估运行时指标:展示每个评估任务中的模型调用耗时和Tokens消耗情况。
- 人工标注统计:如果您已对评估结果进行人工标注,该区域将展示标注详情,将标注的结果进行归类。
更多操作
在评估结果中,还可以执行如表1的操作。
| 操作 | 说明 |
|---|---|
| 下载评估报告 | 当智能分析报告生成后,单击页面右侧的“下载”,即可将评估报告以PDF格式下载至本地。 |
| 评价智能分析报告 | 单击右侧的“点赞”或“点踩”按钮,对智能分析报告的质量进行反馈,以帮助平台持续优化智能分析效果。 |
| 人工校准得分 | 当评估器出现评估偏差或不准确的异常案例时,您可以进行人工校准。人工校准后的得分将覆盖评估器的原始评分,并影响后续的统计分析结果。请谨慎修改。 系统提供以下两种校准方式:
|
| 查看详情 | 单击目标数据操作列中的“详情”,进入详情页面。在此页面,您可以查看该条数据的完整数据信息,包括评测集数据、智能体的输出数据、人工标注和具体指标得分及评估依据。 |
| 人工标注 | 您可以为评估任务的结果添加自定义标签,实现结果的分类管理。基于人工标注的数据信息,支持通过筛选器定位特定样本。如何进行标注,请参考步骤二:人工标注评估结果。 |
| 编辑标注信息 |
|
常见问题
查看在线评估结果时怎么没有数据?
在查看在线评估结果时,如果发现没有数据,可能是因为以下几个原因:
- 回流数据的时间范围不匹配
- 问题描述:评估的智能体在采样策略中配置的时间范围没有产生调用链数据。
- 解决方法:检查智能体的采样策略配置,确保智能体产生数据的时间范围与回流数据的时间范围一致。如果需要,调整采样策略的时间范围,确保在评估期间能够生成调用链数据。
- 评估粒度不匹配
- 问题描述:当前评估的智能体产生的调用链数据不包含选择评估粒度的数据信息。例如,当评估粒度选择为“工具”时,但智能体中没有添加工具,或者智能体在使用过程中没有调用工具,那么调用链数据中就不会有工具上报的信息,导致评估结果中没有数据。
- 解决方法:
- 确认智能体中是否已添加相关工具,并在使用过程中调用了这些工具。
- 如果评估粒度选择为“工具”,请确保智能体在评估期间确实调用了工具,生成了相应的调用链数据。
- 如果智能体中没有添加工具或未调用工具,可以考虑调整评估粒度,选择其他粒度(如“调用链”、“Root Span”或“模型”)进行评估。
- 数据上报开关未开启
- 问题描述:当前评估的智能体未开启数据上报开关,调用链数据没有上报导致评估结果中没有数据。
- 解决方法:
- 登录AgentArts智能体平台。
- 在左侧导航,选择“开发中心 > 智能体管理”。
- 选择“单智能体”页签,单击需要上报数据的单智能体应用卡片。
- 在“单智能体配置”页面,单击“提交版本”。
- 已经发布的单智能体应用,修改后再次发布,显示为“更新版本”。
- 在“提交版本”页面,配置发布信息,并开启“日志记录”、“调用链”和“指标”开关。开启开关后,智能体的交互数据将自动上报。 图6 开启数据上报开关


