有用性
有用性评估器
分类 | 详情 | |
|---|---|---|
基础信息 | 评估器名称 | 有用性 |
效果说明 | 功能概述 | 评估模型输出对于用户输入是否具有高有用性、深刻洞察力且符合恰当性标准。 |
评估方式 | LLM评估 | |
评估目标 | 文本、输出质量 | |
应用场景 | 适用于智能助手、专业咨询、知识问答、决策支持等场景,评估模型输出是否真正解决用户问题,提供深度见解而非泛泛而谈,同时保持表达得体、边界恰当。 | |
评分标准 | 1.0分 | 输出极具有用性,精准解决用户核心需求,提供深刻洞察与actionable建议,表达恰当得体,超出预期。 |
0.75 | 输出高度有用,较好回应用户需求,具备一定深度见解,表达恰当,偶有可优化空间但不影响核心价值。 | |
0.5 | 输出有一定有用性,部分回应用户需求,见解较为常规,表达基本恰当,存在明显改进空间。 | |
0.25 | 输出有用性低,偏离用户核心需求,缺乏深度见解,或表达欠妥,难以提供实质帮助。 | |
0.0分 | 输出完全无用,未回应用户需求,无洞察力,或表达严重不当,对用户无价值甚至造成困扰。 | |
评估器参数说明:
参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
输入参数 | input | 是 | 用户的输入问题,提供评估的上下文背景。 |
actual_output | 是 | 智能体针对该问题的实际输出结果。 | |
输出参数 | score | 是 | 评估得分(0.0/0.25/0.5/0.75/1.0)。 |
reason | 是 | 评分理由说明。 |
输入格式示例:
{
"input": "为什么天空是蓝色的?",
"actual_output": "因为瑞利散射。阳光中的蓝光波长较短,更容易被大气分子散射,所以我们看到的天空呈现蓝色。"
} 输出格式示例:
{
"score": 1.0,
"reason": "该回复准确解释了天空呈蓝色的物理机制(瑞利散射),语言简洁、逻辑清晰,无冗余信息,完全符合深度与恰当性标准,应评为1.0分。"
} 
