文本可用性
文本可用性评估器
分类 | 详情 | |
|---|---|---|
基础信息 | 评估器名称 | 文本可用性 |
效果说明 | 功能概述 | 综合衡量一篇文本在完成既定任务目标、符合体裁规范、可读可信,并具备有效表达与价值输出方面的整体可用性。 |
评估方式 | LLM评估 | |
评估目标 | 文本、输出质量 | |
应用场景 | 适用于内容生产、自动化写作、文档生成等场景,综合评估文本在任务完成度、体裁合规性、可读性、可信度及价值输出等方面的整体质量,判断其是否可直接投入使用或需人工修订。 | |
评分标准 | 1.0分 | 文本完全可用,任务目标达成,体裁规范严谨,可读性强,内容可信,价值输出明确,无需修改即可直接使用。 |
0.75 | 文本基本可用,任务目标基本达成,体裁偶有偏差,可读性良好,内容整体可信,存在轻微瑕疵但不影响核心使用。 | |
0.5 | 文本部分可用,任务目标部分达成,体裁存在明显不规范,可读性一般,部分内容存疑,需人工修订后方可使用。 | |
0.25 | 文本可用性低,任务目标严重偏离,体裁混乱,可读性差,内容可信度低,价值输出模糊,需大幅重构。 | |
0.0分 | 文本完全不可用,任务目标未达成,体裁错误,无法阅读,内容不可信或无价值,不具备使用条件。 | |
评估器参数说明:
参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
输入参数 | input | 是 | 用户的输入问题,提供评估的上下文背景。 |
actual_output | 是 | 智能体针对该问题的实际输出结果。 | |
输出参数 | score | 是 | 评估得分(0.0 / 0.25 / 0.5 / 0.75 / 1.0)。 |
reason | 是 | 评分理由说明。 |
输入格式示例:
{
"input": "写一篇关于量子计算的科普文章,要求用通俗语言解释,不超过300字。",
"actual_output": "量子计算是一种用光子做比特的计算机,它能瞬间破解所有银行密码,所以现在没人敢用。"
} 输出格式示例:
{
"score": 0.0,
"reason": "回复存在严重事实错误(量子计算不能破解所有银行密码),且曲解了技术原理,违反真实性底线。"
} 
