引用相关性
引用准确性评估器
分类 | 详情 | |
|---|---|---|
基础信息 | 评估器名称 | 引用相关性 |
效果说明 | 功能概述 | 衡量回复文本是否引用了文本中的真实引用,评估引语的真实性、措辞准确性及归属正确性。 |
评估方式 | LLM评估 | |
评估目标 | 文本、输出质量 | |
应用场景 | 适用于学术写作、新闻报道、法律文件、研究综述等需要严谨引证的场景,确保模型输出中的引用真实存在、措辞准确、归属正确,避免虚构引用、断章取义或张冠李戴。 | |
评分标准 | 1.0分 | 引用完全相关且真实,所有引语均能在原文中溯源,措辞与原文一致,归属准确无误。 |
0.0分 | 引用存在失实,包括虚构引用、无法溯源、措辞严重偏差、断章取义或归属错误。 | |
评估器参数说明:
参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
输入参数 | input | 是 | 用户的输入问题,提供评估的上下文背景。 |
context | 是 | 智能体回答所依据的参考原文或知识库检索片段。 | |
actual_output | 是 | 智能体针对该问题的实际输出结果。 | |
输出参数 | score | 是 | 评估得分(0.0 / 1.0)。 |
reason | 是 | 评分理由说明。 |
输入格式示例:
{
"input": "CCE集群默认最多支持多少个节点?",
"context": "【CCE集群配额说明】\n- 企业版集群:默认最多200个节点,可通过工单提升至1000节点\n- 标准版集群:默认最多50个节点,可通过工单提升至200节点",
"actual_output": "根据官方文档,CCE集群默认最多支持200个节点,可以通过工单申请提升配额。"
} 输出格式示例:
{
"score": 0.0,
"reason": "模型声称'默认最多支持200个节点'与参考文本不符。该表述错误地将企业版的特定配置泛化为所有版本的通用默认值,属于错误归属引语。"
} 
