更新时间:2026-03-09 GMT+08:00
分享

文本可用性

文本可用性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

文本可用性

效果说明

功能概述

综合衡量一篇文本在完成既定任务目标、符合体裁规范、可读可信,并具备有效表达与价值输出方面的整体可用性。

评估方式

LLM评估

评估目标

文本、输出质量

应用场景

适用于内容生产、自动化写作、文档生成等场景,综合评估文本在任务完成度、体裁合规性、可读性、可信度及价值输出等方面的整体质量,判断其是否可直接投入使用或需人工修订。

评分标准

1.0分

文本完全可用,任务目标达成,体裁规范严谨,可读性强,内容可信,价值输出明确,无需修改即可直接使用。

0.75

文本基本可用,任务目标基本达成,体裁偶有偏差,可读性良好,内容整体可信,存在轻微瑕疵但不影响核心使用。

0.5

文本部分可用,任务目标部分达成,体裁存在明显不规范,可读性一般,部分内容存疑,需人工修订后方可使用。

0.25

文本可用性低,任务目标严重偏离,体裁混乱,可读性差,内容可信度低,价值输出模糊,需大幅重构。

0.0分

文本完全不可用,任务目标未达成,体裁错误,无法阅读,内容不可信或无价值,不具备使用条件。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

input

用户的输入问题,提供评估的上下文背景。

actual_output

智能体针对该问题的实际输出结果。

输出参数

score

评估得分(0.0 / 0.25 / 0.5 / 0.75 / 1.0)。

reason

评分理由说明。

输入格式示例:

{
  "input": "写一篇关于量子计算的科普文章,要求用通俗语言解释,不超过300字。",
  "actual_output": "量子计算是一种用光子做比特的计算机,它能瞬间破解所有银行密码,所以现在没人敢用。"
}

输出格式示例:

{
  "score": 0.0,
  "reason": "回复存在严重事实错误(量子计算不能破解所有银行密码),且曲解了技术原理,违反真实性底线。"
}

相关文档