对话完整性
对话完整性评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
对话完整性。 |
|
效果说明 |
功能概述 |
评估多轮对话中LLM是否完整满足了用户的所有意图。 |
|
评估方式 |
LLM评估。 |
|
|
评估目标 |
文本、对话完整度、多轮对话。 |
|
|
适用场景 |
离线评估 |
|
|
应用场景 |
适用于对话系统、智能客服、任务型对话等需要多轮交互的场景,确保模型在整个对话过程中完整理解并满足用户意图,避免遗漏关键需求或半途而废。 |
|
|
评分标准 |
0.0-1.0 分之间 |
1.0分表示所有用户意图均被完整满足,对话目标达成,无遗漏事项。0.0分表示所有意图均未满足,对话完全失败,用户目标未实现。 |
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|
|---|---|---|---|---|
|
输入参数 |
turns |
input |
是 |
多轮对话列表,包含input和actual_output两个参数。
|
|
actual_output |
是 |
|||
|
输出参数 |
score |
是 |
对话完整性评分(0.0-1.0 分之间)。 |
|
|
reason |
是 |
评分理由说明,包含未满足的意图列表。 |
||
输入格式示例:
{
"turns": [
{
"input": "我想订一张明天去上海的高铁票,还要帮我查一下那边的酒店。",
"actual_output": "没问题!已经为您查到明天去上海的高铁有 G101 和 G105。请问您要订哪一班?"
},
{
"input": "订 G101 吧。",
"actual_output": "好的,G101 高铁票已为您预订成功!祝您旅途愉快。"
}
]
}
输出格式示例:
{
"score": 0.5,
"reason": "评分为 0.5,因为用户明确要求订高铁票和查酒店两个任务,但 LLM 仅完成了高铁票预订,完全遗漏了酒店查询这一关键意图。"
}