幻觉现象

幻觉现象评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	幻觉现象
效果说明	功能概述	评估模型输出是否存在幻觉现象。
	评估方式	LLM评估
	评估目标	文本、输出质量
	应用场景	适用于知识密集型问答、事实核查、专业领域咨询等场景，确保模型输出基于可靠信息源，避免生成虚构事实、错误数据或无法验证的陈述。
评分标准	1.0分	输出内容真实可靠，所有事实性陈述均可验证，无虚构信息、错误数据或无法溯源的断言。
评分标准	0.0分	输出存在幻觉现象，包含虚构事实、错误数据、无法验证的陈述，或混淆不同信息源的内容。

评估器参数说明：

表2 评估器参数说明
参数类型	参数名称	是否必填	参数说明
输入参数	input	是	用户的输入问题，提供评估的上下文背景。
	context	是	参考上下文信息，如检索到的相关文档或知识库内容，用于验证输出的事实依据
	actual_output	是	智能体针对该问题的实际输出结果。
	reference_output	是	评测集中预设的标准参考答案，作为正确性评判基准。
输出参数	score	是	评估得分（0.0 / 1.0）。
输出参数	reason	是	评分理由说明。

输入格式示例：

{
  "input": "埃菲尔铁塔在哪里？",
  "context": "埃菲尔铁塔在法国,巴黎。",
  "actual_output": "著名的埃菲尔铁塔坐落在浪漫之都法国巴黎。"
  "reference_output": "埃菲尔铁塔坐落在法国巴黎。"
}

输出格式示例：

{
  "score": 1.0,
  "reason": "输出中的事实'位于法国巴黎'与输入上下文中的信息完全一致，没有添加任何无根据的主张或推测性细节。因此，应该给出的分数是1.0。"
}

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨