创建评估任务
评估任务旨在评估智能体或工作流的回复准确率。这个过程通过将评测集、评估对象和评估器结合来完成。评测集提供输入的对话数据,让智能体或工作流进行回答。评估器则根据设定的评估规则将评测集中的预期输出,与智能体或工作流的实际回复进行对比,生成评分结果,从而反映其准确率和整体表现。
前提条件
- 已开通AgentArts服务。
- 登录用户为空间所有者、空间管理员、开发工程师、运维工程师,详细信息请参考管理团队空间成员。
约束与限制
- 最多支持创建10个评估任务。
- 单个评估任务中最多支持添加5个评估器。
创建委托
同意委托执行智能体和工作流的权限,用于执行评估任务。
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击右上角的“创建评估任务”。
- 在对话框中,单击“确定”。
同意授权后,才可以创建评估任务。
图1 同意授权
创建评测任务(智能体评估)
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击右上角的“创建评估任务”。
- 设置评估任务的基础信息,请参照表1完成参数配置。
- 将评估对象类型设置为“智能体”。
- 单击“选择评估对象”,选择需评估的智能体及其版本(必须为已发布版本)。
- 选择一个已发布的评测集。
- 选择评估器
- 单击“选择评估器”,在弹出的页面中选择使用自定义或平台精选评估器。
- 平台精选:适用于未创建评估器的场景。平台提供了一系列预置评估器可直接使用。详细信息请参考预置评估器。
- 自定义:选择自定义的评估器以及版本。
- 评估器选择完成后,单击评估器右侧的下拉箭头,将评测集中的字段以及评估对象的实际输出(agent_output)与评估器的字段进行映射,确保评估器能够准确获取数据并执行评估任务。
图2 评估器字段映射
- 单击“选择评估器”,在弹出的页面中选择使用自定义或平台精选评估器。
- 检查评估任务的配置信息,确保设置无误之后,单击“发起任务”。
评估任务创建完成后,在“评估任务”页面查看创建的评估任务。还可以通过属性筛选(评估任务名称和状态)或关键字搜索来查找评估任务。
创建评估任务(评测集评估)
当以评测集作为评估对象时,评估器的字段必须与评测集中对应的字段相匹配,否则可能导致评估任务执行失败或结果异常。
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“运营运维 > 评估”, 在“评估任务”页签中,单击右上角的“创建评估任务”。
- 设置评估任务的基础信息,请参照表1完成参数配置。
- 选择评估对象为评测集
当您希望基于已上线运行的Agent产生的真实调用链数据进行评估时,可以将“评测集”作为评估对象。该方式支持将线上实际输入与输出回流至评测集,实现对Agent表现的精准复盘与量化分析。
获取调用链数据:
- 进入 “调用链管理” 页签,在列表中找到需要添加的调用链数据记录。
- 单击调用链数据,在调用链详情页面单击 “输入” 或 “输出”右侧的“复制”。
- 将复制的数据粘贴至评测集的对应字段中。
图3 获取调用链数据
- 选择需要评估的评测集。
- 选择评估器
- 单击“选择评估器”,选择使用自定义或平台精选评估器。
- 选择完成后,单击评估器右侧的下拉箭头,进行字段映射,确保评估器准确获取数据并执行评估。
图4 评估器字段映射
示例场景说明
- 场景一:评估输出结果的正确性
- 目标:判断Agent输出是否与标准答案一致。
- 推荐评估器:平台精选评估器——“正确性”
- 评测集字段要求:必须包含以下三列:
- input:原始输入数据
- output:实际输出数据
- reference_output:标准参考答案
图5 评测集数据示例
图6 评估器字段映射示例
- 场景二:评估输出是否具有明显的“AI味”(AI感过重)
- 目标:检测数据内容是否过于机械、模板化,缺乏自然表达。
- 推荐评估器:平台精选评估器——“AI味检查”
- 评测集字段要求:
- input:原始输入数据
- output:实际输出数据
图7 评测集数据示例
图8 评估器字段映射示例
- 场景一:评估输出结果的正确性
- 检查评估任务的配置信息,确保设置无误之后,单击“发起任务”。
评估任务创建完成后,在“评估任务”页面查看创建的评估任务。还可以通过属性筛选(评估任务名称和状态)或关键字搜索来查找评估任务。
更多操作
|
操作 |
说明 |
|---|---|
|
删除评估任务 |
|
|
复制评估任务 |
|


