主题遵从
对话完整性评估器
| 分类 | 详情 | |
|---|---|---|
| 基础信息 | 评估器名称 | 主题遵从 |
| 效果说明 | 功能概述 | 评估多轮对话中LLM是否完整满足了在预定义的主题范围内进行对话,遵从主题范围。 |
| 评估方式 | LLM评估 | |
| 评估目标 | 确保评估器能够准确地从非结构化数据中提炼出核心讨论主题。通过分析用户输入和系统追踪数据,评估器可以识别对话的主要内容主题。 | |
| 适用场景 | 在线评估 | |
| 应用场景 | 该评估器适用于需要从对话数据中提取核心讨论主题的场景。例如,在客户服务、市场调研、内容分析等领域,可以使用该评估器来快速了解对话的主要内容和讨论焦点主题。 | |
| 评分标准 | 0.0-1.0 分之间 | 1.0分表示评估器提取的主题准确反映了对话的主要内容和讨论焦点。0.0分表示不能提取出对话中的所有核心讨论主题,目标为达成。 |
评估器参数说明:
| 参数类型 | 参数名称 | 是否必填 | 参数说明 | |
|---|---|---|---|---|
| 输入参数 | turns | input | 是 | 多轮对话列表,包含input和actual_output两个参数。
|
| actual_output | 是 | |||
| 输出参数 | score | 是 | 对话完整性评分(0.0-1.0 分之间)。 | |
| reason | 是 | 评分理由说明,包含未满足的意图列表。 | ||
输入格式示例:
{
"turns": [
{
"input": "糖尿病患者最适合吃什么食物?",
"actual_output": "燕麦片对糖尿病患者很好,可以帮助控制血糖水平。"
},
{
"input": "如果我改吃麦片粥而不是燕麦会更好吗?",
"actual_output": "虽然麦片粥对糖尿病患者也有益,但燕麦片更优。建议咨询您的营养师以获得更好的指导。"
}
]
} 输出格式示例:
{
"score": 1.0,
"reason": "评分为1.0,因为LLM在预定义的主题范围内进行对话,遵从主题范围。"
}