预置评估器概览
AgentArts智能体开发平台提供了丰富的预置评估器,用于智能体和工作流的质量评估。这些评估器根据不同的使用场景和评估需求进行了分类,支持离线评估、在线评估或两者都支持。用户可根据具体的评估目标和数据来源选择合适的评估器,确保评估结果的准确性和有效性。
评估器判定原理
| 判定类型 | 说明 | 适用场景 |
|---|---|---|
| 模型判定 | 依托大模型作为裁判,根据预设的Prompt对智能体的输出进行主观或半主观评分。 | 适用于非确定性、语义理解类、开放性输出的评估任务,如自然语言生成质量、对话逻辑合理性、创意内容生成等。 |
| 代码判定 | 通过确定性代码逻辑(如正则匹配、JSON校验、数学计算)对输出进行二元判断。 | 适用于输出结果具有明确格式、可执行逻辑或数学计算的确定性任务,如数据处理结果比对、数值计算准确性等。 |
评估器支持任务详情
预置评估器根据判定原理分为模型判定和代码判定两大类。根据评估任务的运行模式(在线评估/离线评估),各评估器的支持情况如下表所示: