更新时间:2026-04-15 GMT+08:00
分享

回流Trace数据至评测集

在应用开发过程中,往往难以完全模拟真实用户复杂多变的行为模式。这导致人工创建的评测集评估的结果可能与线上实际表现存在偏差,开发者需要通过真实的线上数据来完善评测与训练体系。

Trace数据回流功能旨在解决上述痛点。它支持将应用上线后、在真实场景下产生的Trace数据进行回流与标注,并将其沉淀到数据集中。这一机制将“线上实战”转化为“数据资产”,为后续的模型评估与优化提供坚实基础。

使用限制

限制

说明

单次回流的数据量

单次回流最多选择200条数据。如需导入更多数据,建议分批次进行。

数据类型

配置数据字段和评测集字段的映射关系时,应确认写入前后的数据类型完全一致,否则可能因数据类型不匹配导致数据回流失败。例如回流的Trace字段是Input,数据类型为String,评测集已有列数据类型为Float,无法转换,则可能导致回流失败。

评测集数据条数上限

每个评测集的数据条目数量上限为500条。

数据上报限制

仅通过API调用产生的数据才会上报到运营运维。使用API调用智能体,请参考《最佳实践》中“API调用实践”章节。

步骤一:选择Trace数据

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 观测”。
  3. “调用链分析”页面中,筛选出目标Trace数据。
  4. 勾选需要回流的Trace数据,单击右上角的“添加到评测集”
    图1 添加至评测集

步骤二:配置回流规则

“添加到评测集”的对话框中,配置Trace数据回流的规则。

数据导出到评测集时,请遵循评测集的约束与限制,具体说明请参见约束与限制

图2 配置回流规则
表1 配置回流规则

参数

说明

示例

目标评测集

数据需要添加到哪个评测集,目前仅支持选择已有评测集。

已有评测集

目标评测集名称

选择Trace数据具体要添加到目标评测集的名称。

企业知识数据集

目标评测集列

展示已选择的目标评测集中已有的列名。

input reference_output

导入方式

Trace数据导入评测集的方式,支持追加数据或全量覆盖。

  • 追加数据在评测集已有数据行下新增Trace数据。应确保导入选择的数据后,评测集的数据不超过上限(500 条)。
  • 全量覆盖:清除评测集已有数据行后,新增数据。

选择“追加数据”

字段映射

设置需要回流的数据字段和评测集字段的映射关系。

在执行“回流至评测集”时,系统会提供众多可选字段。请不要全部勾选,建议根据您的用途进行“准确提取”,详细信息请参考表2

  1. 选择需要回流的Trace字段。支持回流trace_id、span_id、input和output等信息。
  2. 设置对应的评测集字段,设置Trace字段回流到评测集具体哪一列。支持选择回流到评测集已有列或新增列,不支持多个Trace字段回流到评测集同一列。
注意:

请确保回流的Trace字段与评测集字段的数据类型一致,否则将导致回流失败。

配置示例请参考图2

表2 回流字段

字段类别

字段名称

说明

核心问答类 (最常用)

input

用户提问或当前节点的上游输入。

output

智能体的回答或当前节点的输出结果。

性能类

duration

当前Span执行花费的时间(用于评估延迟)。

tokens

大模型处理该次请求消耗的Token数量(用于评估成本与冗余度)。

input_tokens

output_tokens

start_time

执行开始的时间戳,记录请求发起的具体时间。

溯源类

trace_id

唯一追踪码。建议回流时带上trace_id。当发现评测BadCase时,可拿着该ID回到观测页面查看智能体的完整运行记录。

span_id

session_id

会话ID。多轮对话的追踪标识,用于将同一个用户的上下文串联起来。

is_error

运行状态。记录该次调用是否发生了底层报错。

调用链上下文态类

call_type

触发类型,表示当前数据产生时是通过什么方式触发的。

span_type

Span类型,用于进一步细化分类操作的类别。

span_name

Span名称,描述具体的操作动作或节点名称(如“调用大模型”、“搜索知识库”)

status_code

状态码,返回HTTP状态码或业务自定义错误码。

资源与扩展信息类

feedback_operation

用户反馈操作,记录用户对结果的评价行为(如点赞、点踩)。

metadata

元数据信息,以Key-Value形式存储额外的扩展信息。

resource_id

产生该条Trace数据的智能体的ID。

resource_name

产生该条Trace数据的智能体的名称。

resource_type

产生该条Trace数据的智能体的类型。

步骤三:添加至评测集

  1. 单击“校验并预览”,查看字段映射的效果,确认无误单击“确定”
    图3 效果预览
  2. 单击“开始导入”,导入成功后,可以在“评估 > 评测集”页面中找到目标评测集,单击评测集名称进入详情页面查看导入的数据。

相关文档