更新时间:2026-02-07 GMT+08:00
分享

查看评估结果

查看评估结果

评估结果页面是评估任务执行结果的详细视图,旨在帮助您从宏观统计下沉到微观案例,进行深度复盘。

  • 全链路数据分析

    该页面涵盖了从输入到评估的完整过程。您不仅可以查看原始输入、智能体实际输出和设定的预期输出,还能获取评估器给出的具体得分以及详细的评分理由。通过直观对比“实际输出”与“预期输出”,您可以快速判断智能体的回答质量,精准定位回复偏差,从而有效验证评估结果的准确性。

  • 深度分析与优化

    详细的得分和得分理由能帮助您精准定位问题。例如,您可以识别出智能体是否存在“幻觉”、指令遵循是否严格,或者评估器是否出现了误判。这些洞察将直接指导您优化智能体或调整评估器的评分标准,从而提升整体评估体系的准确性。

  • 高效筛选与聚焦

    为了应对大量数据,页面提供了灵活的筛选功能。您可以根据执行状态、和属性快速过滤数据。

在“评估任务”页面,单击评估任务名称,可以进入评估结果页面查看Agent的评测数据、实际输出、期望输出,以及评测得分。单击操作列“详情”,可查看评估数据明细。

图1 查看评估结果
图2 查看评估数据明细

更多操作

在数据明细页面,还可以执行如表1的操作。

表1 更多操作

操作

说明

人工校准得分

当评估器出现评估偏差或不准确的异常案例时,您可以进行人工校准。系统提供以下两种校准方式:

  • 在列表页直接校准
    1. 在数据列表中,找到需要校准的评估器得分,单击其右侧的
    2. 在弹出的 “人工校准” 对话框中,输入修正后的得分和得分原因。
    3. 单击 “确定” 完成保存。
    图3 人工校准
  • 在详情页校准
    1. 单击目标数据操作列中的 “详情”,进入详情页面。
    2. 选中需要校准得分的评估器,单击其得分右侧的
    3. 在弹出的 “人工校准” 对话框中,输入修正后的得分和得分原因。
    4. 单击 “确定” 完成保存。
    图4 人工校准

查看详情

单击目标数据操作列中的 “详情” ,进入详情页面。在此页面,您可以查看该条数据的完整评估报告,包括输入输出对比、具体指标得分及评估依据。

相关文档