知识保持

知识保持评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	知识保持。
效果说明	功能概述	评估多轮对话中LLM是否记住并正确使用之前对话中用户提供的信息。
	评估方式	LLM评估。
	评估目标	文本、上下文记忆能力、多轮对话。
	适用场景	离线评估
	应用场景	适用于个性化对话、用户画像构建、长期记忆系统等，确保模型能够记住用户在对话中提供的个人信息、偏好、约束条件等，并在后续对话中正确应用，避免重复询问或与已知事实矛盾。
评分标准	0.0-1.0 分之间	1.0分表示LLM记住并应用所有已知信息，无遗忘或矛盾。0.0分表示完全不考虑之前提供的信息，对话逻辑混乱。

评估器参数说明：

表2 评估器参数说明
参数类型	参数名称		是否必填	参数说明
输入参数	turns	input	是	多轮对话列表，包含input和actual_output两个参数。 input：用户的输入问题，提供评估的上下文背景。 actual_output：智能体针对该问题的实际输出结果。
输入参数	turns	actual_output	是
输出参数	score		是	知识保持评分（0.0-1.0 分之间）。
输出参数	reason		是	评分理由说明，包含遗忘或矛盾的具体情况。

输入格式示例：

{
  "turns": [
    {
      "input": "你好",
      "actual_output": "请问你对龙虾过敏吗？"
    },
    {
      "input": "是的，我对龙虾过敏",
      "actual_output": "好的，已记录。请问晚饭要为您准备什么？"
    },
    {
      "input": "准备龙虾面吧",
      "actual_output": "好的，已为您预订龙虾面。"
    }
  ]
}

输出格式示例：

{
  "score": 0.33,
  "reason": "评分为 0.33，因为用户明确表示对龙虾过敏，但 LLM 在第三轮对话中仍然为用户预订龙虾面，这严重违背了已知的过敏信息，可能导致健康风险。"
}

父主题：预置评估器

上一篇：轮次相关性

下一篇：对话完整性

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

知识保持

相关文档

意见反馈

文档内容是否对您有帮助？