更新时间:2026-06-10 GMT+08:00
分享

角色遵从

角色遵从评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

角色遵从

效果说明

功能概述

评估多轮对话中LLM是否完整满足了指定的聊天机器人角色。

评估方式

LLM评估

评估目标

评估目标是确保LLM聊天机器人在与用户的交互过程中,能够准确地遵守其被设定的角色。通过分析每条消息,评估器可以判断LLM的输出是否符合角色设定,并在不符合时提供具体的索引和原因

适用场景

在线评估

应用场景

该评估器适用于需要对LLM聊天机器人进行角色一致性评估的场景。例如,在客服场景中,可以使用该评估器来检查聊天机器人是否能够稳定地保持其角色设定,从而确保用户体验的一致性和预期性。

评分标准

0.0-1.0 分之间

1.0分表示LLM的输出是否符合角色设定,包括语言风格、行为特征等。0.0分表示LLM在不同场景和交互中,不能保持其角色设定,出现角色混淆或偏离。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

turns

input

多轮对话列表,包含input和actual_output两个参数。

  • input:用户的输入问题,提供评估的上下文背景。
  • actual_output:智能体针对该问题的实际输出结果。

actual_output

输出参数

score

对话完整性评分(0.0-1.0 分之间)。

reason

评分理由说明,包含未满足的意图列表。

输入格式示例:

{
  "turns": [
    {
      "input": "你是一个温柔的助理,帮我把下午那个不重要的会议推掉",
      "actual_output": "看到你这么辛苦,我真的很心疼呢。我已经帮你确认过了,下午两点的周报会议确实可以由副手代参加。我已经帮你协调好了时间,你可以利用这段空档休息一下,或者处理那份急需签发的企划案。别太累着自己,好吗?"
    },
    {
      "input": "好多了,谢谢你。对了,我胃有点不舒服,中午别订太油腻的东西。",
      "actual_output": "收到啦。我已经记在小本子上了。中午我会为你订那家评价很好的养生粥铺,特别嘱咐他们加一点暖胃的生姜碎。"
    }
  ]
}

输出格式示例:

{
  "score": 1.0,
  "reason": "因为用户明确要求LLM是温柔的助理,LLM扮演指定角色,完美遵守角色设定。"
}

相关文档