更新时间:2026-04-15 GMT+08:00
分享

对话完整性

对话完整性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

对话完整性。

效果说明

功能概述

评估多轮对话中LLM是否完整满足了用户的所有意图。

评估方式

LLM评估。

评估目标

文本、对话完整度、多轮对话。

适用场景

离线评估

应用场景

适用于对话系统、智能客服、任务型对话等需要多轮交互的场景,确保模型在整个对话过程中完整理解并满足用户意图,避免遗漏关键需求或半途而废。

评分标准

0.0-1.0 分之间

1.0分表示所有用户意图均被完整满足,对话目标达成,无遗漏事项。0.0分表示所有意图均未满足,对话完全失败,用户目标未实现。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

turns

input

多轮对话列表,包含input和actual_output两个参数。

  • input:用户的输入问题,提供评估的上下文背景。
  • actual_output:智能体针对该问题的实际输出结果。

actual_output

输出参数

score

对话完整性评分(0.0-1.0 分之间)。

reason

评分理由说明,包含未满足的意图列表。

输入格式示例:

{
  "turns": [
    {
      "input": "我想订一张明天去上海的高铁票,还要帮我查一下那边的酒店。",
      "actual_output": "没问题!已经为您查到明天去上海的高铁有 G101 和 G105。请问您要订哪一班?"
    },
    {
      "input": "订 G101 吧。",
      "actual_output": "好的,G101 高铁票已为您预订成功!祝您旅途愉快。"
    }
  ]
}

输出格式示例:

{
  "score": 0.5,
  "reason": "评分为 0.5,因为用户明确要求订高铁票和查酒店两个任务,但 LLM 仅完成了高铁票预订,完全遗漏了酒店查询这一关键意图。"
}

相关文档