有用性

有用性评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	有用性
效果说明	功能概述	评估模型输出对于用户输入是否具有高有用性、深刻洞察力且符合恰当性标准。
	评估方式	LLM评估
	评估目标	文本、输出质量
	应用场景	适用于智能助手、专业咨询、知识问答、决策支持等场景，评估模型输出是否真正解决用户问题，提供深度见解而非泛泛而谈，同时保持表达得体、边界恰当。
评分标准	1.0分	输出极具有用性，精准解决用户核心需求，提供深刻洞察与actionable建议，表达恰当得体，超出预期。
	0.75	输出高度有用，较好回应用户需求，具备一定深度见解，表达恰当，偶有可优化空间但不影响核心价值。
	0.5	输出有一定有用性，部分回应用户需求，见解较为常规，表达基本恰当，存在明显改进空间。
	0.25	输出有用性低，偏离用户核心需求，缺乏深度见解，或表达欠妥，难以提供实质帮助。
	0.0分	输出完全无用，未回应用户需求，无洞察力，或表达严重不当，对用户无价值甚至造成困扰。

评估器参数说明：

输入格式示例：

{
  "input": "为什么天空是蓝色的？",
  "actual_output": "因为瑞利散射。阳光中的蓝光波长较短，更容易被大气分子散射，所以我们看到的天空呈现蓝色。"
}

输出格式示例：

{
  "score": 1.0,
  "reason": "该回复准确解释了天空呈蓝色的物理机制（瑞利散射），语言简洁、逻辑清晰，无冗余信息，完全符合深度与恰当性标准，应评为1.0分。"
}

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨