预置评估器概览
AgentArts智能体开发平台提供了丰富的预置评估器,用于智能体和工作流的质量评估。这些评估器根据不同的使用场景和评估需求进行了分类,支持离线评估、在线评估或两者都支持。用户可根据具体的评估目标和数据来源选择合适的评估器,确保评估结果的准确性和有效性。
评估器判定原理
|
判定类型 |
说明 |
适用场景 |
|---|---|---|
|
模型判定 |
依托大模型作为裁判,根据预设的Prompt对智能体的输出进行主观或半主观评分。 |
适用于非确定性、语义理解类、开放性输出的评估任务,如自然语言生成质量、对话逻辑合理性、创意内容生成等。 |
|
代码判定(暂未上线) |
通过确定性代码逻辑(如正则匹配、JSON校验、数学计算)对输出进行二元判断。 |
适用于输出结果具有明确格式、可执行逻辑或数学计算的确定性任务,如数据处理结果比对、数值计算准确性等。 |
评估器支持任务详情
预置评估器根据判定原理分为模型判定和代码判定两大类。根据评估任务的运行模式(在线评估/离线评估),各评估器的支持情况如下表所示:
|
适用场景 |
判定类型 |
支持的评估器 |
|---|---|---|
|
仅支持离线评估 |
模型判定 |
|
|
代码判定 |
文本等值判断、文本包含判断、 文本正则匹配、 文本起始子串判断 、 文本JSON格式校验 数学表达式相等判断、 JSON相等判断 |
|
|
仅支持在线评估 |
模型判定 |
|
|
同时支持离线与在线评估 |
模型判定 |
正确性、AI味检查、任务完成度、不敏感性、争议性、创意性、参考答案遵从度、幻觉现象、性别歧视 、恶意性、指令遵从度、拒答检测、格式检查、语种一致性、文本可用性、安全风险漏放、有害性、有用性、深度性、犯罪性、引用相关性、知识问答-指令遵循、知识问答-真实准确、知识问答-精炼性、知识问答-便捷性、知识问答-丰富度、简洁性、细节丰富度 |