更新时间:2026-03-09 GMT+08:00
分享

知识问答-指令遵循

知识问答-指令遵循评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

知识问答-指令遵循

效果说明

功能概述

考察AI模型是否全面、准确地理解并执行了用户在指令中提出的所有需求。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

适用于复杂任务执行、多条件查询、格式化输出等场景,评估模型对用户指令中各项要求(如格式、长度、风格、特定内容等)的理解完整度与执行准确度。

评分标准

1.0分

全面准确理解并执行所有指令要求,无遗漏、无偏差,输出完全符合用户预期。

0.75

较好理解并执行大部分指令要求,个别次要要求有遗漏或轻微偏差,不影响核心任务完成。

0.5

部分理解指令要求,存在明显遗漏或执行偏差,核心任务基本完成但未能完全满足用户预期。

0.25分

理解严重偏差,大量指令要求未执行,输出与用户需求存在显著差距。

0.0分

完全未理解指令要求,输出与用户需求无关,或理解错误导致任务失败。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

actual_output

智能体针对该问题的实际输出结果。

输出参数

score

评估得分(0.0/0.25/0.5/0.75/1.0)。

reason

评分理由说明。

输入格式示例:

{
  "input": "请用中文总结以下内容,并以表格形式列出3个要点:\n\nAI技术正在改变医疗行业。它能辅助诊断、优化治疗方案、提升患者管理效率。",
  "actual_output": "AI in healthcare is revolutionary. It helps with diagnosis, treatment, and patient management."
}

输出格式示例:

{
  "score": 0.0,
  "reason": "主需求未满足:未使用中文、未总结、未生成表格、未列出3个要点。回复完全偏离指令。"
}

相关文档