预置评估器概览

AgentArts智能体开发平台提供了丰富的预置评估器，用于智能体和工作流的质量评估。这些评估器根据不同的使用场景和评估需求进行了分类，支持离线评估、在线评估或两者都支持。用户可根据具体的评估目标和数据来源选择合适的评估器，确保评估结果的准确性和有效性。

表1 判定原理
判定类型	说明	适用场景
模型判定	依托大模型作为裁判，根据预设的Prompt对智能体的输出进行主观或半主观评分。	适用于非确定性、语义理解类、开放性输出的评估任务，如自然语言生成质量、对话逻辑合理性、创意内容生成等。
代码判定	通过确定性代码逻辑（如正则匹配、JSON校验、数学计算）对输出进行二元判断。	适用于输出结果具有明确格式、可执行逻辑或数学计算的确定性任务，如数据处理结果比对、数值计算准确性等。

预置评估器根据判定原理分为模型判定和代码判定两大类。根据评估任务的运行模式（在线评估/离线评估），各评估器的支持情况如下表所示：

表2 支持情况概览
适用场景	判定类型	支持的评估器
仅支持离线评估	模型判定	轮次相关性、知识保持、对话完整性、参考答案遵从度
仅支持离线评估	代码判定	文本等值判断、文本包含判断、文本正则匹配、文本起始子串判断、文本JSON格式校验、数学表达式相等判断、 JSON相等判断
仅支持在线评估	模型判定	轨迹质量、工具参数正确性、工具选择质量、轨迹-工具参数填充正确性
同时支持离线与在线评估	模型判定	正确性、AI味检查、任务完成度、不敏感性、争议性、创意性、幻觉现象、性别歧视、恶意性、指令遵从度、拒答检测、格式检查、语种一致性、文本可用性、安全风险漏放、有害性、有用性、深度性、犯罪性、引用相关性、知识问答-指令遵循、知识问答-真实准确、知识问答-精炼性、知识问答-便捷性、知识问答-丰富度、简洁性、细节丰富度

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨