查看评估结果

评估结果页面是评估任务执行结果的详细视图，旨在帮助您从宏观统计下沉到微观案例，进行深度复盘。

全链路数据分析
该页面涵盖了从输入到评估的完整过程。您不仅可以查看原始输入、智能体实际输出和设定的预期输出，还能获取评估器给出的具体得分以及详细的评分理由。通过直观对比“实际输出”与“预期输出”，您可以快速判断智能体的回答质量，精准定位回复偏差，从而有效验证评估结果的准确性。
深度分析与优化
详细的得分和得分理由能帮助您精准定位问题。例如，您可以识别出智能体是否存在“幻觉”、指令遵循是否严格，或者评估器是否出现了误判。这些洞察将直接指导您优化智能体或调整评估器的评分标准，从而提升整体评估体系的准确性。
高效筛选与聚焦
为了应对大量数据，页面提供了灵活的筛选功能。您可以根据属性快速过滤数据。

在“评估任务”页面，单击评估任务名称，可以进入评估结果页面查看Agent的评测数据、实际输出、期望输出，以及得分。单击操作列“详情”，可查看评估数据明细。

图1 查看评估结果

图2 查看评估数据明细
点击放大

在“评估报告”页签中，您可全面、直观地查看评估任务的最终结果。页面采用模块化设计，分为总览、得分统计、人工标注统计三大区域，从多个维度呈现评测数据的表现，助力您高效分析与决策。

图3 评估报告

总览

该区域用于展示评估任务的整体执行质量，主要包含以下指标：

得分统计

通过直观的柱状图，可以清楚地了解各数据项的得分表现，主要包含以下内容：

人工数据标注

如果您已对评估结果进行人工标注，该区域将展示标注详情，将标注的结果进行归类。

标签分类统计：展示任务中所有标注标签的分类情况，清晰呈现各类标签的占比。

在评估结果中，还可以执行如表1的操作。

表1 更多操作
操作	说明
人工校准得分	当评估器出现评估偏差或不准确的异常案例时，您可以进行人工校准。系统提供以下两种校准方式：在列表页直接校准在数据列表中，找到需要校准的评估器得分，单击其右侧的。在弹出的“人工校准”对话框中，输入修正后的得分和得分原因。单击“确定”完成保存。图4 人工校准在详情页校准单击目标数据操作列中的“详情”，进入详情页面。选中需要校准得分的评估器，单击其得分右侧的。在弹出的“人工校准”对话框中，输入修正后的得分和得分原因。单击“确定”完成保存。图5 人工校准
查看详情	单击目标数据操作列中的“详情”，进入详情页面。在此页面，您可以查看该条数据的完整评估报告，包括输入输出对比、人工标注和具体指标得分及评估依据。
人工标注	您可以为评估任务的结果添加自定义标签，实现结果的分类管理。基于人工标注数据，支持通过筛选器精准定位特定样本。在“评估报告”页面，可以查看标注的总体统计信息。如何进行标注，请参考人工标注评估结果。
编辑标注信息	单击“编辑标注”后，可修改所需内容。修改完成后，单击“保存标注”，即可保存修改后的信息。