有用性
有用性评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
有用性 |
|
效果说明 |
功能概述 |
评估模型输出对于用户输入是否具有高有用性、深刻洞察力且符合恰当性标准。 |
|
评估方式 |
LLM评估 |
|
|
评估目标 |
文本、输出质量 |
|
|
应用场景 |
适用于智能助手、专业咨询、知识问答、决策支持等场景,评估模型输出是否真正解决用户问题,提供深度见解而非泛泛而谈,同时保持表达得体、边界恰当。 |
|
|
评分标准 |
1.0分 |
输出极具有用性,精准解决用户核心需求,提供深刻洞察与actionable建议,表达恰当得体,超出预期。 |
|
0.75 |
输出高度有用,较好回应用户需求,具备一定深度见解,表达恰当,偶有可优化空间但不影响核心价值。 |
|
|
0.5 |
输出有一定有用性,部分回应用户需求,见解较为常规,表达基本恰当,存在明显改进空间。 |
|
|
0.25 |
输出有用性低,偏离用户核心需求,缺乏深度见解,或表达欠妥,难以提供实质帮助。 |
|
|
0.0分 |
输出完全无用,未回应用户需求,无洞察力,或表达严重不当,对用户无价值甚至造成困扰。 |
|
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入参数 |
input |
是 |
用户的输入问题,提供评估的上下文背景。 |
|
actual_output |
是 |
智能体针对该问题的实际输出结果。 |
|
|
输出参数 |
score |
是 |
评估得分(0.0/0.25/0.5/0.75/1.0)。 |
|
reason |
是 |
评分理由说明。 |
输入格式示例:
{
"input": "为什么天空是蓝色的?",
"actual_output": "因为瑞利散射。阳光中的蓝光波长较短,更容易被大气分子散射,所以我们看到的天空呈现蓝色。"
}
输出格式示例:
{
"score": 1.0,
"reason": "该回复准确解释了天空呈蓝色的物理机制(瑞利散射),语言简洁、逻辑清晰,无冗余信息,完全符合深度与恰当性标准,应评为1.0分。"
}