知识问答-指令遵循

知识问答-指令遵循评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	知识问答-指令遵循
效果说明	功能概述	考察AI模型是否全面、准确地理解并执行了用户在指令中提出的所有需求。
	评估方式	LLM评估
	评估目标	文本、输出质量
	应用场景	适用于复杂任务执行、多条件查询、格式化输出等场景，评估模型对用户指令中各项要求（如格式、长度、风格、特定内容等）的理解完整度与执行准确度。
评分标准	1.0分	全面准确理解并执行所有指令要求，无遗漏、无偏差，输出完全符合用户预期。
	0.75	较好理解并执行大部分指令要求，个别次要要求有遗漏或轻微偏差，不影响核心任务完成。
	0.5	部分理解指令要求，存在明显遗漏或执行偏差，核心任务基本完成但未能完全满足用户预期。
	0.25分	理解严重偏差，大量指令要求未执行，输出与用户需求存在显著差距。
	0.0分	完全未理解指令要求，输出与用户需求无关，或理解错误导致任务失败。

评估器参数说明：

表2 评估器参数说明
参数类型	参数名称	是否必填	参数说明
输入参数	input	是	用户的输入问题，提供评估的上下文背景。
输入参数	actual_output	是	智能体针对该问题的实际输出结果。
输出参数	score	是	评估得分（0.0/0.25/0.5/0.75/1.0）。
输出参数	reason	是	评分理由说明。

输入格式示例：

{
  "input": "请用中文总结以下内容，并以表格形式列出3个要点：\n\nAI技术正在改变医疗行业。它能辅助诊断、优化治疗方案、提升患者管理效率。",
  "actual_output": "AI in healthcare is revolutionary. It helps with diagnosis, treatment, and patient management."
}

输出格式示例：

{
  "score": 0.0,
  "reason": "主需求未满足：未使用中文、未总结、未生成表格、未列出3个要点。回复完全偏离指令。"
}

父主题：预置评估器

上一篇：引用相关性

下一篇：知识问答-真实准确

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

知识问答-指令遵循

相关文档

意见反馈

文档内容是否对您有帮助？