引用相关性
引用准确性评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
引用相关性 |
|
效果说明 |
功能概述 |
衡量回复文本是否引用了文本中的真实引用,评估引语的真实性、措辞准确性及归属正确性。 |
|
评估方式 |
LLM评估 |
|
|
评估目标 |
文本、输出质量 |
|
|
应用场景 |
适用于学术写作、新闻报道、法律文件、研究综述等需要严谨引证的场景,确保模型输出中的引用真实存在、措辞准确、归属正确,避免虚构引用、断章取义或张冠李戴。 |
|
|
评分标准 |
1.0分 |
引用完全相关且真实,所有引语均能在原文中溯源,措辞与原文一致,归属准确无误。 |
|
0.0分 |
引用存在失实,包括虚构引用、无法溯源、措辞严重偏差、断章取义或归属错误。 |
|
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入参数 |
input |
是 |
用户的输入问题,提供评估的上下文背景。 |
|
context |
是 |
智能体回答所依据的参考原文或知识库检索片段。 |
|
|
actual_output |
是 |
智能体针对该问题的实际输出结果。 |
|
|
输出参数 |
score |
是 |
评估得分(0.0 / 1.0)。 |
|
reason |
是 |
评分理由说明。 |
输入格式示例:
{
"input": "CCE集群默认最多支持多少个节点?",
"context": "【CCE集群配额说明】\n- 企业版集群:默认最多200个节点,可通过工单提升至1000节点\n- 标准版集群:默认最多50个节点,可通过工单提升至200节点",
"actual_output": "根据官方文档,CCE集群默认最多支持200个节点,可以通过工单申请提升配额。"
}
输出格式示例:
{
"score": 0.0,
"reason": "模型声称'默认最多支持200个节点'与参考文本不符。该表述错误地将企业版的特定配置泛化为所有版本的通用默认值,属于错误归属引语。"
}