回流Trace数据至评测集

在应用开发过程中，往往难以完全模拟真实用户复杂多变的行为模式。这导致人工创建的评测集评估的结果可能与线上实际表现存在偏差，开发者需要通过真实的线上数据来完善评测与训练体系。

Trace数据回流功能旨在解决上述痛点。它支持将应用上线后、在真实场景下产生的Trace数据进行回流与标注，并将其沉淀到数据集中。这一机制将“线上实战”转化为“数据资产”，为后续的模型评估与优化提供坚实基础。

使用限制

限制	说明
单次回流的数据量	单次回流最多选择200条数据。如需导入更多数据，建议分批次进行。
数据类型	配置数据字段和评测集字段的映射关系时，应确认写入前后的数据类型完全一致，否则可能因数据类型不匹配导致数据回流失败。例如回流的Trace字段是Input，数据类型为String，评测集已有列数据类型为Float，无法转换，则可能导致回流失败。
评测集数据条数上限	每个评测集的数据条目数量上限为5000条。
数据上报限制	仅通过API调用产生的数据才会上报到运营运维模块。控制台调试和编排预览不计入统计。使用API调用智能体，请参考API调用实践。

步骤一：选择Trace数据

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 观测”。
在“调用链分析”页面中，筛选出目标Trace数据。
勾选需要回流的Trace数据，单击右上角的“添加到评测集”。
图1 添加至评测集

步骤二：配置回流规则

在“添加到评测集”的对话框中，配置Trace数据回流的规则。

数据导出到评测集时，请遵循评测集的约束与限制，具体说明请参见约束与限制。

图2 配置回流规则

表1 配置回流规则
参数	说明	示例
目标评测集	数据需要添加到哪个评测集，目前仅支持选择已有评测集。如无可用评测集，请先创建评测集。	已有评测集
目标评测集名称	选择Trace数据具体要添加到目标评测集的名称。	企业知识数据集
目标评测集列	展示已选择的目标评测集中已有的列名。	input，reference_output
导入方式	Trace数据导入评测集的方式，支持追加数据或全量覆盖。追加数据：在评测集已有数据下新增Trace数据。应确保导入选择的数据后，评测集的数据不超过上限（5000条）。全量覆盖：清除评测集已有数据后，新增数据。选择“全量覆盖”将清除目标评测集当前版本的所有已有数据，如需恢复，可通过评测集的“版本历史”功能还原至覆盖前的版本。	选择“追加数据”
字段映射	设置需要回流的数据字段和评测集字段的映射关系。在执行“回流至评测集”时，系统会提供众多可选字段。请不要全部勾选，建议根据您的用途进行“准确提取”，详细信息请参考表2。选择需要回流的Trace字段。支持回流trace_id、span_id、input和output等信息。设置对应的评测集字段，设置Trace字段回流至评测集的指定列。支持选择回流到评测集已有列或新增列，不支持多个Trace字段回流到评测集同一列。注意：请确保回流的Trace字段与评测集字段的数据类型一致，否则将导致回流失败。如遇数据类型冲突，请参考常见问题进行排查。	配置示例请参考图2

表2 回流字段
字段类别	字段名称	说明
核心问答类 (最常用)	input	用户提问或当前节点的上游输入。
核心问答类 (最常用)	output	智能体的回答或当前节点的输出结果。
性能类	duration	当前Span执行花费的时间（用于评估延迟）。
	tokens	大模型处理该次请求消耗的Token总量（用于评估成本与冗余度）。
	input_tokens	大模型处理输入消耗的Token数量。
	output_tokens	大模型处理输出消耗的Token数量。
	start_time	执行开始的时间戳，记录请求发起的具体时间。
溯源类	trace_id	唯一追踪码。建议回流时包含trace_id。当发现评测BadCase（异常案例）时，可使用该ID回到观测页面查看智能体的完整运行记录。
	span_id
	session_id	会话ID。多轮对话的追踪标识，用于将同一个用户的上下文串联起来。
	is_error	运行状态。记录该次调用是否发生了底层报错。
调用链上下文类	call_type	触发类型，表示当前数据产生时是通过什么方式触发的。
	span_type	Span类型，用于进一步细化操作分类。
	span_name	Span名称，描述具体的操作动作或节点名称（如“调用大模型”、“搜索知识库”）。
	status_code	状态码，返回HTTP状态码或业务自定义错误码。
资源与扩展信息类	feedback_operation	用户反馈操作，记录用户对结果的评价行为（如点赞、点踩）。
	metadata	元数据信息，以Key-Value形式存储额外的扩展信息。
	resource_id	产生该条Trace数据的智能体的ID。
	resource_name	产生该条Trace数据的智能体的名称。
	resource_type	产生该条Trace数据的智能体的类型。

步骤三：添加至评测集

单击“校验并预览”，查看字段映射的效果。
预览页面将展示字段映射后的前几条数据样例，请核对Trace字段是否正确映射到评测集对应列，数据内容是否完整。
图3 效果预览
确认无误单击“确定”。
单击“开始导入”，导入成功后，可以在“评估 > 评测集”页面中找到目标评测集，单击评测集名称进入详情页面查看导入的数据。
请核对评测集中的数据条数是否与回流的Trace数据条数一致。