知识保持
知识保持评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
知识保持。 |
|
效果说明 |
功能概述 |
评估多轮对话中LLM是否记住并正确使用之前对话中用户提供的信息。 |
|
评估方式 |
LLM评估。 |
|
|
评估目标 |
文本、上下文记忆能力、多轮对话。 |
|
|
适用场景 |
离线评估 |
|
|
应用场景 |
适用于个性化对话、用户画像构建、长期记忆系统等,确保模型能够记住用户在对话中提供的个人信息、偏好、约束条件等,并在后续对话中正确应用,避免重复询问或与已知事实矛盾。 |
|
|
评分标准 |
0.0-1.0 分之间 |
1.0分表示LLM记住并应用所有已知信息,无遗忘或矛盾。0.0分表示完全不考虑之前提供的信息,对话逻辑混乱。 |
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|
|---|---|---|---|---|
|
输入参数 |
turns |
input |
是 |
多轮对话列表,包含input和actual_output两个参数。
|
|
actual_output |
是 |
|||
|
输出参数 |
score |
是 |
知识保持评分(0.0-1.0 分之间)。 |
|
|
reason |
是 |
评分理由说明,包含遗忘或矛盾的具体情况。 |
||
输入格式示例:
{
"turns": [
{
"input": "你好",
"actual_output": "请问你对龙虾过敏吗?"
},
{
"input": "是的,我对龙虾过敏",
"actual_output": "好的,已记录。请问晚饭要为您准备什么?"
},
{
"input": "准备龙虾面吧",
"actual_output": "好的,已为您预订龙虾面。"
}
]
}
输出格式示例:
{
"score": 0.33,
"reason": "评分为 0.33,因为用户明确表示对龙虾过敏,但 LLM 在第三轮对话中仍然为用户预订龙虾面,这严重违背了已知的过敏信息,可能导致健康风险。"
}