创建在线评估任务

应用上线运行后，会持续上报大量的调用链数据。如果采用传统的离线评测方式，往往需要经历繁琐的数据回流、导出与清洗过程，不仅操作链路长，且难以快速响应业务验证需求。

AgentArts平台提供了高效的在线评测能力，支持对指定时间范围内的调用链数据进行自动拉取与评估。该功能打破了离线评测的局限，实现了数据采集的自动化闭环。

费用说明

基础版创建评估任务10次后，无法继续创建新的评估任务。

前提条件

已开通AgentArts服务。

已创建并发布智能体。
- 创建智能体请参考创建单智能体应用、创建多智能体应用和搭建工作流。
- 发布智能体请参考发布应用、发布多智能体应用为API和发布工作流。
已开启数据上报开关。开启数据上报请参考开启数据上报。
已开通和授权APM和AOM，授权操作请参考开通授权。

约束与限制

表1 使用限制
限制	说明
任务创建上限	最多支持创建10个评估任务（包含在线和离线任务）
评估器添加上限	单个评估任务中最多支持添加5个评估器。
支持评估对象	仅支持评估在“智能体管理”中创建的智能体，暂不支持评估外部接入的智能体。
评估器类型限制	仅支持添加自定义“模型判定”评估器和预置评估器。

开通授权

为了在线评估任务能读取调用链数据和评估任务的执行结果能上报至用户的AOM中，您需要开通APM和AOM的权限。如果未开通这些权限，将无法使用评估功能。

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签中，单击右上角的“创建评估任务”。
在弹出的对话框中，单击“开通授权”。

开通授权后，才可以创建评估任务。如果遇到"权限不足"等错误，请参见常见问题。

图1 开通授权

创建在线评估任务

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签中，单击右上角的“创建评估任务”。

选择“任务类型”为“在线评估”，并参照表2完成参数配置。

表2 基础信息参数说明
参数	说明
名称	评估任务的名称。命名规则：命名要求：支持中文、英文、数字、下划线（_）中划线（-）和空格的组合，不允许以空格开头或结尾和使用其他特殊字符。长度限制：2~50个字符。
描述（可选）	评估任务的描述。长度限制：0~200个字符。
会话持续时间	从单次会话最后一条调用链产生时开始计时，如果超出设定时长且无新调用链产生，则判定当前会话结束。单位：分钟。默认值：10分钟。取值范围：1~60。
智能分析	是否生成智能分析报告。

配置评估对象和评估粒度

图2 评估对象和评估粒度配置示例

表3 评估对象和评估粒度参数说明
参数	说明
评估对象	选择需要评估的智能体及其版本。说明：仅支持对已发布的版本进行评估。
评估粒度	该参数决定了评估的数据维度。支持对智能体的整条调用链数据进行评估，或仅针对调用链中的特定节点数据进行评估。具体选项说明如下：调用链：对整条Trace数据进行评估。该粒度覆盖了从用户发起请求到智能体最终输出响应的全生命周期数据。它包含了请求处理过程中的所有节点、模型交互、工具调用等信息。模型：对智能体运行过程中与大模型交互产生的数据信息进行评估。该粒度聚焦于LLM（大语言模型）调用环节。它仅提取运行过程中与大模型相关的交互数据。 Root Span：对调用链中根节点产生的数据信息进行评估。Root Span代表智能体接收请求后的入口节点（即调用的起点）。该粒度仅关注智能体顶层逻辑的输入与输出，不包含内部细分的子步骤。工具：对智能体运行时调用工具产生的数据信息进行评估。该粒度聚焦于外部工具或插件调用环节。它提取智能体运行过程中调用各类工具（如知识库、MCP等）的详细数据。例如：如果需评估模型回复质量，推荐选择“模型”粒度；如果需查看工具调用信息，推荐选择“工具”粒度。

配置评估任务的采样策略

图3 采样策略配置示例

表4 采样策略参数说明
参数	说明
筛选条件（可选）	设置筛选trace数据的条件，只有符合要求的数据才会被在线任务采集。逻辑关系：评估粒度和筛选条件之间为“且”的关系（即数据需同时满足评估粒度要求与筛选条件）。示例：筛选出调用链中“请求状态”为“成功”的数据进行评估。
采样比例	设置采样的比例。 100%表示全采样，即符合筛选范围的Trace数据都会被采样。
采样总数上限	本次评估任务采样数据的总条数。默认值：500条。取值范围：1~500。注意：如果“采样总数上限”与“采样比例”均设置过低，可能导致系统无法采集到上报的Trace数据。建议根据实际业务流量适当调大相关参数。
时间范围	选择数据采集的时间范围。只有该时间范围内上报的Trace才会被在线评测任务采集。回流新数据：采集当前时间点之后新产生的Trace数据。回流历史数据：采集当前时间点之前产生的历史Trace数据。
重复频率	自动评测任务的重复频率。支持设置以“天”或“周”为维度重复运行。默认值：不重复。图4 配置示例说明：在进行数据回流操作时，请遵循以下条件：时间范围限制：回流历史数据时，仅支持回流最近30天内的历史数据。数据总量限制：回流历史数据与回流新数据的条数之和，不能大于采样总数上限。计算示例：假设采样总数上限为500条，如果回流历史数据200条，则回流新数据的最大条数为300条。

选择评估器

单击“选择评估器”，在弹出的页面中选择需要的评估器。
检查评估任务的配置信息（如采样策略、筛选条件等），确认无误后，单击“发起任务”。任务创建后，系统将自动跳转至“评估任务详情”页面。在该页面中查看任务的状态：任务创建完成后状态显示为“运行中”。
通过API调用智能体进行交互，系统将根据配置自动采集产生的Trace数据并执行评估任务。

任务执行完成后状态变更为“成功”。您可以在“评估任务”列表页面通过名称或状态筛选查看任务，或在详情页查看具体的评估结果。