文本可用性
文本可用性评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
文本可用性 |
|
效果说明 |
功能概述 |
综合衡量一篇文本在完成既定任务目标、符合体裁规范、可读可信,并具备有效表达与价值输出方面的整体可用性。 |
|
评估方式 |
LLM评估 |
|
|
评估目标 |
文本、输出质量 |
|
|
应用场景 |
适用于内容生产、自动化写作、文档生成等场景,综合评估文本在任务完成度、体裁合规性、可读性、可信度及价值输出等方面的整体质量,判断其是否可直接投入使用或需人工修订。 |
|
|
评分标准 |
1.0分 |
文本完全可用,任务目标达成,体裁规范严谨,可读性强,内容可信,价值输出明确,无需修改即可直接使用。 |
|
0.75 |
文本基本可用,任务目标基本达成,体裁偶有偏差,可读性良好,内容整体可信,存在轻微瑕疵但不影响核心使用。 |
|
|
0.5 |
文本部分可用,任务目标部分达成,体裁存在明显不规范,可读性一般,部分内容存疑,需人工修订后方可使用。 |
|
|
0.25 |
文本可用性低,任务目标严重偏离,体裁混乱,可读性差,内容可信度低,价值输出模糊,需大幅重构。 |
|
|
0.0分 |
文本完全不可用,任务目标未达成,体裁错误,无法阅读,内容不可信或无价值,不具备使用条件。 |
|
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入参数 |
input |
是 |
用户的输入问题,提供评估的上下文背景。 |
|
actual_output |
是 |
智能体针对该问题的实际输出结果。 |
|
|
输出参数 |
score |
是 |
评估得分(0.0 / 0.25 / 0.5 / 0.75 / 1.0)。 |
|
reason |
是 |
评分理由说明。 |
输入格式示例:
{
"input": "写一篇关于量子计算的科普文章,要求用通俗语言解释,不超过300字。",
"actual_output": "量子计算是一种用光子做比特的计算机,它能瞬间破解所有银行密码,所以现在没人敢用。"
}
输出格式示例:
{
"score": 0.0,
"reason": "回复存在严重事实错误(量子计算不能破解所有银行密码),且曲解了技术原理,违反真实性底线。"
}