更新时间:2026-04-15 GMT+08:00
分享

轮次相关性

轮次相关性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

轮次相关性。

效果说明

功能概述

评估多轮对话中每一轮AI回复是否与上下文相关,避免答非所问或跑题。

评估方式

LLM评估。

评估目标

文本、上下文相关性、多轮对话。

适用场景

离线评估

应用场景

适用于长对话场景、聊天机器人、对话系统等,确保模型每轮回复都与当前上下文保持相关,避免出现跑题、答非所问或忽略用户需求的情况。

评分标准

0.0-1.0 分之间

1.0表示所有轮次的回复都与上下文高度相关,对话连贯流畅。0.0表示几乎所有轮次都不相关,对话混乱无序,完全脱离上下文。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

turns

input

多轮对话列表,包含input和actual_output两个参数。

  • input:用户的输入问题,提供评估的上下文背景。
  • actual_output:智能体针对该问题的实际输出结果。

actual_output

输出参数

score

相关性评分(0.0-1.0 分之间)。

reason

评分理由说明。

输入格式示例:

{
  "turns": [
    {
      "input": "嗨!我有件事想告诉你",
      "actual_output": "当然,是什么事?"
    },
    {
      "input": "我喉咙痛,该吃什么药?",
      "actual_output": "不确定,但今天天气不错不是吗?"
    }
  ]
}

输出格式示例:

{
  "score": 0.5,
  "reason": "得分为 0.5,因为第 2 轮中用户询问喉咙痛的治疗方案,但 LLM 回复'今天天气不错',完全与用户问题无关,属于严重的答非所问。"
}

相关文档