引用相关性

引用准确性评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	引用相关性
效果说明	功能概述	衡量回复文本是否引用了文本中的真实引用，评估引语的真实性、措辞准确性及归属正确性。
	评估方式	LLM评估
	评估目标	文本、输出质量
	应用场景	适用于学术写作、新闻报道、法律文件、研究综述等需要严谨引证的场景，确保模型输出中的引用真实存在、措辞准确、归属正确，避免虚构引用、断章取义或张冠李戴。
评分标准	1.0分	引用完全相关且真实，所有引语均能在原文中溯源，措辞与原文一致，归属准确无误。
评分标准	0.0分	引用存在失实，包括虚构引用、无法溯源、措辞严重偏差、断章取义或归属错误。

评估器参数说明：

表2 评估器参数说明
参数类型	参数名称	是否必填	参数说明
输入参数	input	是	用户的输入问题，提供评估的上下文背景。
	context	是	智能体回答所依据的参考原文或知识库检索片段。
	actual_output	是	智能体针对该问题的实际输出结果。
输出参数	score	是	评估得分（0.0 / 1.0）。
输出参数	reason	是	评分理由说明。

输入格式示例：

{
  "input": "CCE集群默认最多支持多少个节点？",
  "context": "【CCE集群配额说明】\n- 企业版集群：默认最多200个节点，可通过工单提升至1000节点\n- 标准版集群：默认最多50个节点，可通过工单提升至200节点",
  "actual_output": "根据官方文档，CCE集群默认最多支持200个节点，可以通过工单申请提升配额。"
}

输出格式示例：

{
  "score": 0.0,
  "reason": "模型声称'默认最多支持200个节点'与参考文本不符。该表述错误地将企业版的特定配置泛化为所有版本的通用默认值，属于错误归属引语。"
}

父主题：预置评估器

上一篇：犯罪性

下一篇：知识问答-指令遵循

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

引用相关性

相关文档

意见反馈

文档内容是否对您有帮助？