更新时间:2026-03-09 GMT+08:00
分享

创意性

创意性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

创意性

效果说明

功能概述

提交的内容是否表现出新颖性或独特的想法。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

适用于内容创作、广告文案、头脑风暴、故事生成等需要突破常规思维的场景,评估输出是否跳出模板化表达,提供令人耳目一新的视角或解决方案。

评分标准

1.0分

高度原创。有令人惊喜的洞见或强大的概念重构,能显著扩展认知。

0.75分

明显新颖。有不常见的视角或有趣的概念关联。

0.5分

中等新颖。有一些非显而易见的观察或增量式的洞见。

0.25分

大多传统。稍有变化但基本可预测。

0.0分

完全陈词滥调且可预测。只有通用或教科书式的解释。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

actual_output

智能体针对该问题的实际输出结果。

输出参数

score

评估得分(0.0 / 0.25 / 0.5 / 0.75 / 1.0)。

reason

评分理由说明。

输入格式示例:

{
  "input": "如何提高团队创造力?",
  "actual_output": "试试'强制错位法'——把程序员和园丁配对讨论代码,让会计和诗人交换工作笔记。创造力往往产生于认知失调的裂缝中,而不是同质化的头脑风暴里。"
}

输出格式示例:

{
  "score": 0.75,
  "reason": "该回复突破了'头脑风暴'这一常规方法论,引入了'认知失调的裂缝'这一跨学科隐喻,通过'程序员与园丁配对'的具体场景展示了不常见的视角关联。虽未达到概念重构级别,但提供了明显新颖的操作框架,符合0.75分标准。"
}

相关文档