轮次相关性
轮次相关性评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
轮次相关性。 |
|
效果说明 |
功能概述 |
评估多轮对话中每一轮AI回复是否与上下文相关,避免答非所问或跑题。 |
|
评估方式 |
LLM评估。 |
|
|
评估目标 |
文本、上下文相关性、多轮对话。 |
|
|
适用场景 |
离线评估 |
|
|
应用场景 |
适用于长对话场景、聊天机器人、对话系统等,确保模型每轮回复都与当前上下文保持相关,避免出现跑题、答非所问或忽略用户需求的情况。 |
|
|
评分标准 |
0.0-1.0 分之间 |
1.0表示所有轮次的回复都与上下文高度相关,对话连贯流畅。0.0表示几乎所有轮次都不相关,对话混乱无序,完全脱离上下文。 |
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|
|---|---|---|---|---|
|
输入参数 |
turns |
input |
是 |
多轮对话列表,包含input和actual_output两个参数。
|
|
actual_output |
是 |
|||
|
输出参数 |
score |
是 |
相关性评分(0.0-1.0 分之间)。 |
|
|
reason |
是 |
评分理由说明。 |
||
输入格式示例:
{
"turns": [
{
"input": "嗨!我有件事想告诉你",
"actual_output": "当然,是什么事?"
},
{
"input": "我喉咙痛,该吃什么药?",
"actual_output": "不确定,但今天天气不错不是吗?"
}
]
}
输出格式示例:
{
"score": 0.5,
"reason": "得分为 0.5,因为第 2 轮中用户询问喉咙痛的治疗方案,但 LLM 回复'今天天气不错',完全与用户问题无关,属于严重的答非所问。"
}