人工创建多轮评测集

多轮对话是通过模拟用户与智能体连续、交互式的沟通场景，记录完整的对话上下文历史。它旨在解决智能体在长对话中的上下文记忆保持、意图切换理解、逻辑连贯性等核心能力的评估难题。

在AgentArts平台中，一个完整的多轮评测集由一个或多个“数据项”组成，每个数据项代表一次独立的对话会话，而每个会话内则包含了一组连续的“输入”与“期望输出”。

前提条件

已开通AgentArts服务。
已创建评测集。

约束与限制

表1 使用限制
限制	说明
组内对话轮次	每个数据项中，您可以添加的对话轮次最多为10轮。这意味着，在一个数据项内，用户与智能体或工作流的交互次数不能超过10次。
配置列数量上限	单个评测集最多支持配置50个属性或参数。
数据项数量上限	单个评测集包含的数据项上限为5000条。
单次手动添加上限	手动添加数据时，单次最多可添加10条数据项。如需添加更多数据，建议分批次进行操作。
评测集创建数量上限	最多支持创建100个评测集。
单个评测集容量上限	单个评测集的容量限制为50MB。
评测集总容量上限	所有评测集的累计总容量限制为1GB。

添加多轮数据

以下介绍通过手动添加、批量导入及智能合成三种方式，向评测集中添加多轮对话数据的操作步骤。

手动添加：适用于添加少量、临时性的测试数据。
批量导入：适用于已有大量数据，需快速导入的场景。
智能合成：适用于基于少量种子数据自动泛化生成大量测试数据的场景。

在“评测集”页面，单击需要添加数据的评测集名称进入详情页面。
选择“添加数据 > 手动添加”添加数据。
在“添加数据”页面，输入第一组测试数据。
如果需要添加多个数据项，单击“+添加数据项”添加多个数据项。
单击下方的“+添加对话”，可在当前数据项中添加多轮对话。
确认数据无误后，单击“确定”完成数据添加。
操作完成后，页面提示“新增数据项成功”，数据项列表中新增了对应的数据，且评测状态更新为“修改未提交”。
图1 添加数据

在“评测集”页面，单击需要添加数据的评测集名称进入详情页面。
选择“添加数据 > 批量导入”添加数据。
在“批量导入”对话框中选择导入数据的方式。
- 全量覆盖：清除评测集中已有的数据，添加新的数据。选择“全量覆盖”将清除目标评测集当前版本的所有已有数据，此操作不可直接撤销。如需恢复，可通过评测集的“版本历史”功能还原至覆盖前的版本。
- 追加数据：将新的数据添加到评测集中，不会影响评测集中原有的数据。
单击“添加文件”，在弹出的对话框中选择符合模板要求的文件上传。
单击“下载xlsx模板”或“下载jsonl模板”，可以下载批量上传评测集数据的模板。

单击“导入”，系统处理完成后，数据项列表中将显示导入的数据，即完成文件上传。

图2 导入示例

jsonl模板示例：

turns：一个turns表示一组对话数据

{
    "turns": [{
            "input": "什么是AgentArts?",
            "reference_output": "AgentArts是一个企业级一站式智能体构建与运营平台，旨在通过可视化、低代码方式快速搭建各类AI应用。"
        }, {
            "input": "它主要支持哪些核心功能？",
            "reference_output": "\"其核心能力包括：\n\n1. 灵活编排：支持单智能体、工作流及多智能体协作模式。\n2. 能力集成：内置应用模板、提示词模板及预置模型，支持MCP协议、插件和知识库（RAG）的无缝接入。\n3. 全生命周期管理：覆盖从开发到部署的完整流程，降低大模型应用门槛。\""
        }
    ]
}{
    "turns": [{
            "input": "为什么选择AgentArts？",
            "reference_output": "1.预置主流大模型：一次接入，随意切换\n2.灵活强大的工作流编排：搞定复杂业务逻辑\n3.企业级RAG知识库：让AI懂您的私有数据\n4.丰富的插件与工具生态：连接外部世界\n5.金融级安全与高并发运行：生产环境首选"
        }, {
            "input": "知识库支持上传哪些类型的文件?",
            "reference_output": "支持Word、PDF、PPT、PNG等多种格式数据一键导入。"
        }
    ]
}

导入限制说明

支持csv、xlsx、jsonl格式文件，以及包含上述格式文件的zip压缩包。
单个文件最多支持5000条数据项，超过此数量限制将无法导入。
单个文件的大小不得超过50MB。
单次导入操作仅支持上传一个文件。

在“评测集”页面，单击目标评测集名称，进入详情页面。
选择“添加数据 > 智能合成”添加数据。
在“创建智能合成任务”页面，配置合成任务参数。平台将基于当前评测集内的现有数据进行泛化处理，生成符合预期的评测数据。
等待智能合成任务完成后，您可以将生成的数据添加至当前评测集中。详细信息请参考AI合成评测集。
使用智能合成多轮对话数据时，存在以下约束：
- 仅支持合成input和reference_output两列数据，不支持新增其他配置列。
- 必须确保当前评测集的列名称为input和reference_output，否则“智能合成”功能将不可用。
  图3 合成示例

常见问题

为什么“智能合成”功能置灰无法使用？

请检查当前评测集的配置列名称。当前版本要求生成多轮对话数据时，配置列名称必须严格匹配为input和reference_output。如果使用了自定义列名（例如：question、answer），该功能将置灰不可用。请修改列名后重试。
图4 问题示例1
请确保当前评测集已处于“已提交”状态，“修改未提交”状态下的评测集不支持使用“智能合成”功能。如果评测集尚未提交，请先发布评测集，然后再尝试使用“智能合成”功能。
图5 问题示例2
智能合成任务的创建次数已达上限，不支持再创建新的任务。
图6 问题示例3