更新时间:2026-03-09 GMT+08:00
分享

引用相关性

引用准确性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

引用相关性

效果说明

功能概述

衡量回复文本是否引用了文本中的真实引用,评估引语的真实性、措辞准确性及归属正确性。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

适用于学术写作、新闻报道、法律文件、研究综述等需要严谨引证的场景,确保模型输出中的引用真实存在、措辞准确、归属正确,避免虚构引用、断章取义或张冠李戴。

评分标准

1.0分

引用完全相关且真实,所有引语均能在原文中溯源,措辞与原文一致,归属准确无误。

0.0分

引用存在失实,包括虚构引用、无法溯源、措辞严重偏差、断章取义或归属错误。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

context

智能体回答所依据的参考原文或知识库检索片段。

actual_output

智能体针对该问题的实际输出结果。

输出参数

score

评估得分(0.0 / 1.0)。

reason

评分理由说明。

输入格式示例:

{
  "input": "CCE集群默认最多支持多少个节点?",
  "context": "【CCE集群配额说明】\n- 企业版集群:默认最多200个节点,可通过工单提升至1000节点\n- 标准版集群:默认最多50个节点,可通过工单提升至200节点",
  "actual_output": "根据官方文档,CCE集群默认最多支持200个节点,可以通过工单申请提升配额。"
}

输出格式示例:

{
  "score": 0.0,
  "reason": "模型声称'默认最多支持200个节点'与参考文本不符。该表述错误地将企业版的特定配置泛化为所有版本的通用默认值,属于错误归属引语。"
}

相关文档