查看评估结果
前提条件
- 已开通AgentArts服务。
- 登录用户为空间所有者、空间管理员、开发工程师、运维工程师,详细信息请参考管理团队空间成员。
查看评估结果
评估结果页面是评估任务执行结果的详细视图,旨在帮助您从宏观统计下沉到微观案例,进行深度复盘。
- 全链路数据分析
该页面涵盖了从输入到评估的完整过程。您不仅可以查看原始输入、智能体实际输出和设定的预期输出,还能获取评估器给出的具体得分以及详细的评分理由。通过直观对比“实际输出”与“预期输出”,您可以快速判断智能体的回答质量,精准定位回复偏差,从而有效验证评估结果的准确性。
- 深度分析与优化
详细的得分和得分理由能帮助您精准定位问题。例如,您可以识别出智能体是否存在“幻觉”、指令遵循是否严格,或者评估器是否出现了误判。这些洞察将直接指导您优化智能体或调整评估器的评分标准,从而提升整体评估体系的准确性。
- 高效筛选与聚焦
为了应对大量数据,页面提供了灵活的筛选功能。您可以根据属性快速过滤数据。
在“评估任务”页面,单击评估任务名称,可以进入评估结果页面查看Agent的评测数据、实际输出、期望输出,以及得分。单击操作列“详情”,可查看评估数据明细。
查看评估报告
在“评估报告”页签中,您可全面、直观地查看评估任务的最终结果。页面采用模块化设计,分为总览、得分统计、人工标注统计三大区域,从多个维度呈现评测数据的表现,助力您高效分析与决策。
总览
- 任务成功率:成功完成评估的样本占比,反映评测任务的整体执行质量。
- 成功数量:执行成功的数据条数。
- 失败数量:执行失败的数据条数。
得分统计
通过直观的柱状图,可以清楚地了解各数据项的得分表现,主要包含以下内容:
- 得分总览:展示评测数据在评估器中的整体得分情况,包含:平均分、最高分、最低分和总分。
- 评估器得分分布:按评估器维度,分别展示评估任务中所选评估器的平均得分与数据的得分分布情况。
人工数据标注
如果您已对评估结果进行人工标注,该区域将展示标注详情,将标注的结果进行归类。
标签分类统计:展示任务中所有标注标签的分类情况,清晰呈现各类标签的占比。
更多操作
在评估结果中,还可以执行如表1的操作。
|
操作 |
说明 |
|---|---|
|
人工校准得分 |
当评估器出现评估偏差或不准确的异常案例时,您可以进行人工校准。系统提供以下两种校准方式:
|
|
查看详情 |
单击目标数据操作列中的“详情”,进入详情页面。在此页面,您可以查看该条数据的完整评估报告,包括输入输出对比、人工标注和具体指标得分及评估依据。 |
|
人工标注 |
您可以为评估任务的结果添加自定义标签,实现结果的分类管理。基于人工标注数据,支持通过筛选器精准定位特定样本。在“评估报告”页面,可以查看标注的总体统计信息。 如何进行标注,请参考人工标注评估结果。 |
|
编辑标注信息 |
|



