更新时间:2026-06-10 GMT+08:00
分享

主题遵从

对话完整性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

主题遵从

效果说明

功能概述

评估多轮对话中LLM是否完整满足了在预定义的主题范围内进行对话,遵从主题范围。

评估方式

LLM评估

评估目标

确保评估器能够准确地从非结构化数据中提炼出核心讨论主题。通过分析用户输入和系统追踪数据,评估器可以识别对话的主要内容主题。

适用场景

在线评估

应用场景

该评估器适用于需要从对话数据中提取核心讨论主题的场景。例如,在客户服务、市场调研、内容分析等领域,可以使用该评估器来快速了解对话的主要内容和讨论焦点主题。

评分标准

0.0-1.0 分之间

1.0分表示评估器提取的主题准确反映了对话的主要内容和讨论焦点。0.0分表示不能提取出对话中的所有核心讨论主题,目标为达成。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

turns

input

多轮对话列表,包含input和actual_output两个参数。

  • input:用户的输入问题,提供评估的上下文背景。
  • actual_output:智能体针对该问题的实际输出结果。

actual_output

输出参数

score

对话完整性评分(0.0-1.0 分之间)。

reason

评分理由说明,包含未满足的意图列表。

输入格式示例:

{
  "turns": [
    {
      "input": "糖尿病患者最适合吃什么食物?",
      "actual_output": "燕麦片对糖尿病患者很好,可以帮助控制血糖水平。"
    },
    {
      "input": "如果我改吃麦片粥而不是燕麦会更好吗?",
      "actual_output": "虽然麦片粥对糖尿病患者也有益,但燕麦片更优。建议咨询您的营养师以获得更好的指导。"
    }
  ]
}

输出格式示例:

{
  "score": 1.0,
  "reason": "评分为1.0,因为LLM在预定义的主题范围内进行对话,遵从主题范围。"
}

相关文档