更新时间:2026-04-15 GMT+08:00
分享

创建在线评估任务

应用上线运行后,会持续上报大量的调用链数据。如果采用传统的离线评测方式,往往需要经历繁琐的数据回流、导出与清洗过程,不仅操作链路长,且难以快速响应业务验证需求。

AgentArts平台提供了高效的在线评测能力,支持对指定时间范围内的调用链数据进行自动拉取与评估。该功能打破了离线评测的局限,实现了数据采集的自动化闭环

前提条件

约束与限制

表1 使用限制

限制

说明

任务创建上限

最多支持创建10个评估任务(包含在线和离线任务)

评估器添加上限

单个评估任务中最多支持添加5个评估器。

评估器类型限制

在线评估仅支持预置评估器,不支持自定义评估器。

评估器使用限制

在线评估仅支持选择单轮对话类型的评估器。评估器的详细支持情况,请参见 评估器支持任务详情

支持评估对象

仅支持评估在“智能体管理”中创建的智能体,暂不支持评估外部接入的智能体。

开通授权

为了在线评估任务能读取调用链数据和评估任务的执行结果能上报至用户的AOM中,您需要开通APM和AOM的权限。如果未开通这些权限,将无法使用评估功能。

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 在弹出的对话框中,单击“开通授权”。

    开通授权后,才可以创建评估任务。如果遇到"权限不足"等错误,请参见常见问题

    图1 开通授权

创建在线评估任务

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 选择“任务类型”“在线评估”,并参照表2完成参数配置。

    表2 基础信息参数说明

    参数

    说明

    名称

    评估任务的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评估任务的描述。

    长度限制:0~200个字符。

    执行类型

    设置评估任务的执行时间。

    立即执行:发起任务后,任务将立即开始执行。

    稍后执行:可以自定义评估任务的具体执行时间。

  4. 配置评估对象和评估粒度

    图2 评估对象和评估粒度配置示例
    表3 评估对象和评估粒度参数说明

    参数

    说明

    评估对象

    选择需要评估的智能体及其版本。

    说明:

    仅支持对已发布的版本进行评估。

    评估粒度

    该参数决定了评估的数据维度。支持对智能体的整条调用链数据进行评估,或仅针对调用链中的特定节点数据进行评估。具体选项说明如下:

    • 调用链:对整条Trace数据进行评估。该粒度覆盖了从用户发起请求到智能体最终输出响应的全生命周期数据。它包含了请求处理过程中的所有节点、模型交互、工具调用等信息。
    • 模型:对智能体运行过程中与大模型交互产生的数据信息进行评估。该粒度聚焦于LLM(大语言模型)调用环节。它仅提取运行过程中与大模型相关的交互数据。
    • Root Span:对调用链中根节点产生的数据信息进行评估。Root Span代表智能体接收请求后的入口节点(即调用的起点)。该粒度仅关注智能体顶层逻辑的输入与输出,不包含内部细分的子步骤。
    • 工具:对智能体运行时调用工具产生的数据信息进行评估。该粒度聚焦于外部工具或插件调用环节。它提取智能体运行过程中调用各类工具(如知识库、MCP等)的详细数据。

    例如:如果需评估模型回复质量,推荐选择“模型”粒度;如果需排查工具调用失败原因,推荐选择“工具”粒度。

  5. 配置评估任务的采样策略

    图3 采样策略配置示例
    表4 采样策略参数说明

    参数

    说明

    筛选条件

    设置筛选trace数据的条件,只有符合要求的数据才会被在线任务采集。

    逻辑关系:评估粒度和筛选条件之间为“且”的关系(即数据需同时满足评估粒度要求与筛选条件)。

    示例:筛选出调用链中请求状态为“成功”的数据进行评估。

    采样比例

    设置采样的比例。

    100%表示全采样,即符合筛选范围的Trace数据都会被采样。

    采样总数上限

    本次评估任务采样数据的总条数。

    默认值:500条。

    取值范围:1~500条。

    时间范围

    选择数据采集的时间范围。只有该时间范围内上报的Trace才会被在线评测任务采集。

    • 回流新数据:采样当前时间点之后新产生的Trace数据。
    • 回流历史数据:采样当前时间点之前的历史Trace数据。

    重复频率

    自动评测任务的重复频率。支持设置以“天”或“周”为维度重复运行。

    默认值:不重复。

    应用示例:

    如果期望在设置的时间段内均匀采样(如每隔几天采样特定条数),可开启重复采样,并设置重复周期及每次重复采样的条数上限。

    图4 配置示例
    说明:

    在进行数据回流操作时,请遵循以下条件:

    • 时间范围限制:回流历史数据时,仅支持回流最近30天内的历史数据。
    • 数据总量限制:回流历史数据与回流新数据的条数之和,不能大于采样总数上限。

      计算示例:

      假设采样总数上限为500条,如果回流历史数据200条,则回流新数据的最大条数为300条。

  6. 选择评估器

    单击“选择评估器”,在弹出的页面中选择平台精选评估器。在线评估任务仅支持选择预置评估器,不支持自定义评估器。

  7. 检查评估任务的配置信息(如采样策略、筛选条件等),确认无误后,单击“发起任务”。任务创建后,系统将自动跳转至“评估任务详情”页面。在该页面中查看任务的状态:任务创建完成后状态显示为“运行中”。
  8. 通过API调用智能体进行交互,系统将根据配置自动化采集产生的Trace数据并执行评估任务。

    任务执行完成后状态变更为“成功”。您可以在“评估任务”列表页面通过名称或状态筛选查看任务,或在详情页查看具体的评估结果。

相关文档