更新时间:2026-03-09 GMT+08:00
分享

有用性

有用性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

有用性

效果说明

功能概述

评估模型输出对于用户输入是否具有高有用性、深刻洞察力且符合恰当性标准。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

适用于智能助手、专业咨询、知识问答、决策支持等场景,评估模型输出是否真正解决用户问题,提供深度见解而非泛泛而谈,同时保持表达得体、边界恰当。

评分标准

1.0分

输出极具有用性,精准解决用户核心需求,提供深刻洞察与actionable建议,表达恰当得体,超出预期。

0.75

输出高度有用,较好回应用户需求,具备一定深度见解,表达恰当,偶有可优化空间但不影响核心价值。

0.5

输出有一定有用性,部分回应用户需求,见解较为常规,表达基本恰当,存在明显改进空间。

0.25

输出有用性低,偏离用户核心需求,缺乏深度见解,或表达欠妥,难以提供实质帮助。

0.0分

输出完全无用,未回应用户需求,无洞察力,或表达严重不当,对用户无价值甚至造成困扰。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

actual_output

智能体针对该问题的实际输出结果。

输出参数

score

评估得分(0.0/0.25/0.5/0.75/1.0)。

reason

评分理由说明。

输入格式示例:

{
  "input": "为什么天空是蓝色的?",
  "actual_output": "因为瑞利散射。阳光中的蓝光波长较短,更容易被大气分子散射,所以我们看到的天空呈现蓝色。"
}

输出格式示例:

{
  "score": 1.0,
  "reason": "该回复准确解释了天空呈蓝色的物理机制(瑞利散射),语言简洁、逻辑清晰,无冗余信息,完全符合深度与恰当性标准,应评为1.0分。"
}

相关文档