轮次相关性

轮次相关性评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	轮次相关性
效果说明	功能概述	评估多轮对话中每一轮AI回复是否与上下文相关，避免答非所问或跑题。
	评估方式	LLM评估
	评估目标	文本、上下文相关性、多轮对话
	适用场景	离线评估
	应用场景	适用于长对话场景、聊天机器人、对话系统等，确保模型每轮回复都与当前上下文保持相关，避免出现跑题、答非所问或忽略用户需求的情况。
评分标准	0.0-1.0 分之间	1.0表示所有轮次的回复都与上下文高度相关，对话连贯流畅。0.0表示几乎所有轮次都不相关，对话混乱无序，完全脱离上下文。

评估器参数说明：

表2 评估器参数说明
参数类型	参数名称		是否必填	参数说明
输入参数	turns	input	是	多轮对话列表，包含input和actual_output两个参数。 input：用户的输入问题，提供评估的上下文背景。 actual_output：智能体针对该问题的实际输出结果。
输入参数	turns	actual_output	是
输出参数	score		是	相关性评分（0.0-1.0 分之间）。
输出参数	reason		是	评分理由说明。

输入格式示例：

{
  "turns": [
    {
      "input": "嗨！我有件事想告诉你",
      "actual_output": "当然，是什么事？"
    },
    {
      "input": "我喉咙痛，该吃什么药？",
      "actual_output": "不确定，但今天天气不错不是吗？"
    }
  ]
}

输出格式示例：

{
  "score": 0.5,
  "reason": "得分为 0.5，因为第 2 轮中用户询问喉咙痛的治疗方案，但 LLM 回复'今天天气不错'，完全与用户问题无关，属于严重的答非所问。"
}

父主题：预置评估器

上一篇：轨迹-工具参数填充正确性

下一篇：知识保持

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

轮次相关性

相关文档

意见反馈

文档内容是否对您有帮助？