更新时间:2026-04-15 GMT+08:00
分享

预置评估器概览

AgentArts智能体开发平台提供了丰富的预置评估器,用于智能体和工作流的质量评估。这些评估器根据不同的使用场景和评估需求进行了分类,支持离线评估、在线评估或两者都支持。用户可根据具体的评估目标和数据来源选择合适的评估器,确保评估结果的准确性和有效性。

评估器判定原理

表1 判定原理

判定类型

说明

适用场景

模型判定

依托大模型作为裁判,根据预设的Prompt对智能体的输出进行主观或半主观评分。

适用于非确定性、语义理解类、开放性输出的评估任务,如自然语言生成质量、对话逻辑合理性、创意内容生成等。

代码判定(暂未上线)

通过确定性代码逻辑(如正则匹配、JSON校验、数学计算)对输出进行二元判断。

适用于输出结果具有明确格式、可执行逻辑或数学计算的确定性任务,如数据处理结果比对、数值计算准确性等。

评估器支持任务详情

预置评估器根据判定原理分为模型判定代码判定两大类。根据评估任务的运行模式在线评估/离线评估),各评估器的支持情况如下表所示:

相关文档