查看评估结果
查看评估结果
评估结果页面是评估任务执行结果的详细视图,旨在帮助您从宏观统计下沉到微观案例,进行深度复盘。
- 全链路数据分析
该页面涵盖了从输入到评估的完整过程。您不仅可以查看原始输入、智能体实际输出和设定的预期输出,还能获取评估器给出的具体得分以及详细的评分理由。通过直观对比“实际输出”与“预期输出”,您可以快速判断智能体的回答质量,精准定位回复偏差,从而有效验证评估结果的准确性。
- 深度分析与优化
详细的得分和得分理由能帮助您精准定位问题。例如,您可以识别出智能体是否存在“幻觉”、指令遵循是否严格,或者评估器是否出现了误判。这些洞察将直接指导您优化智能体或调整评估器的评分标准,从而提升整体评估体系的准确性。
- 高效筛选与聚焦
为了应对大量数据,页面提供了灵活的筛选功能。您可以根据执行状态、和属性快速过滤数据。
在“评估任务”页面,单击评估任务名称,可以进入评估结果页面查看Agent的评测数据、实际输出、期望输出,以及评测得分。单击操作列“详情”,可查看评估数据明细。
更多操作
在数据明细页面,还可以执行如表1的操作。
|
操作 |
说明 |
|---|---|
|
人工校准得分 |
当评估器出现评估偏差或不准确的异常案例时,您可以进行人工校准。系统提供以下两种校准方式:
|
|
查看详情 |
单击目标数据操作列中的 “详情” ,进入详情页面。在此页面,您可以查看该条数据的完整评估报告,包括输入输出对比、具体指标得分及评估依据。 |



