更新时间:2026-03-18 GMT+08:00
分享

查看评估结果

前提条件

查看评估结果

评估结果页面是评估任务执行结果的详细视图,旨在帮助您从宏观统计下沉到微观案例,进行深度复盘。

  • 全链路数据分析

    该页面涵盖了从输入到评估的完整过程。您不仅可以查看原始输入、智能体实际输出和设定的预期输出,还能获取评估器给出的具体得分以及详细的评分理由。通过直观对比“实际输出”与“预期输出”,您可以快速判断智能体的回答质量,精准定位回复偏差,从而有效验证评估结果的准确性。

  • 深度分析与优化

    详细的得分和得分理由能帮助您精准定位问题。例如,您可以识别出智能体是否存在“幻觉”、指令遵循是否严格,或者评估器是否出现了误判。这些洞察将直接指导您优化智能体或调整评估器的评分标准,从而提升整体评估体系的准确性。

  • 高效筛选与聚焦

    为了应对大量数据,页面提供了灵活的筛选功能。您可以根据属性快速过滤数据。

在“评估任务”页面,单击评估任务名称,可以进入评估结果页面查看Agent的评测数据、实际输出、期望输出,以及得分。单击操作列“详情”,可查看评估数据明细。

图1 查看评估结果
图2 查看评估数据明细

查看评估报告

“评估报告”页签中,您可全面、直观地查看评估任务的最终结果。页面采用模块化设计,分为总览、得分统计、人工标注统计三大区域,从多个维度呈现评测数据的表现,助力您高效分析与决策。

图3 评估报告

总览

该区域用于展示评估任务的整体执行质量,主要包含以下指标:
  • 任务成功率:成功完成评估的样本占比,反映评测任务的整体执行质量。
  • 成功数量:执行成功的数据条数。
  • 失败数量:执行失败的数据条数。

得分统计

通过直观的柱状图,可以清楚地了解各数据项的得分表现,主要包含以下内容:

  • 得分总览:展示评测数据在评估器中的整体得分情况,包含:平均分、最高分、最低分和总分。
  • 评估器得分分布:按评估器维度,分别展示评估任务中所选评估器的平均得分与数据的得分分布情况。

人工数据标注

如果您已对评估结果进行人工标注,该区域将展示标注详情,将标注的结果进行归类。

标签分类统计:展示任务中所有标注标签的分类情况,清晰呈现各类标签的占比。

更多操作

在评估结果中,还可以执行如表1的操作。

表1 更多操作

操作

说明

人工校准得分

当评估器出现评估偏差或不准确的异常案例时,您可以进行人工校准。系统提供以下两种校准方式:

  • 在列表页直接校准
    1. 在数据列表中,找到需要校准的评估器得分,单击其右侧的
    2. 在弹出的“人工校准”对话框中,输入修正后的得分和得分原因。
    3. 单击“确定”完成保存。
    图4 人工校准
  • 在详情页校准
    1. 单击目标数据操作列中的“详情”,进入详情页面。
    2. 选中需要校准得分的评估器,单击其得分右侧的
    3. 在弹出的“人工校准”对话框中,输入修正后的得分和得分原因。
    4. 单击“确定”完成保存。
    图5 人工校准

查看详情

单击目标数据操作列中的“详情”,进入详情页面。在此页面,您可以查看该条数据的完整评估报告,包括输入输出对比、人工标注和具体指标得分及评估依据。

人工标注

您可以为评估任务的结果添加自定义标签,实现结果的分类管理。基于人工标注数据,支持通过筛选器精准定位特定样本。在“评估报告”页面,可以查看标注的总体统计信息。

如何进行标注,请参考人工标注评估结果

编辑标注信息

  1. 单击“编辑标注”后,可修改所需内容。
  2. 修改完成后,单击“保存标注”,即可保存修改后的信息。

相关文档