更新时间:2026-04-15 GMT+08:00
分享

人工创建多轮评测集

多轮对话是通过模拟用户与智能体连续、交互式的沟通场景,记录完整的对话上下文历史。它旨在解决智能体在长对话中的上下文记忆保持意图切换理解逻辑连贯性等核心能力的评估难题。

在AgentArts平台中,一个完整的多轮评测集由一个或多个“数据项”组成,每个数据项代表一次独立的对话会话,而每个会话内则包含了一组连续的“输入”与“期望输出”。

前提条件

约束与限制

表1 使用限制

限制

说明

组内对话轮次

每个数据项中,您可以添加的对话轮次最多为10轮。这意味着,在一个数据项内,用户与智能体或工作流的交互次数不能超过10次。

配置列数量上限

单个评测集最多支持配置50个属性或参数。

数据条目数量上限

单个评测集包含的数据条目上限为500条。

单次手动添加上限

手动添加数据时,单次最多可添加10条数据项。如需添加更多数据,建议分批次进行操作。

评测集创建数量上限

最多支持创建100个评测集。

单个评测集容量上限

单个评测集的容量限制为50MB。

评测集总容量上限

所有评测集的累计总容量限制为1GB。

添加多轮数据

以下是通过手动添加、批量导入及智能合成三种方式,向评测集中添加多轮对话数据。

  1. 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
  2. 选择“添加数据 > 手动添加”添加数据。
  3. “添加数据”页面,输入第一组测试数据。

    如果需要添加多个数据项,单击“+添加数据项”添加多个数据项。

  4. 单击下方的“+添加对话”,可以在数据项1中添加多轮对话。
  5. 确认数据无误后,单击“确定”完成数据添加。
    图1 添加数据
  1. 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
  2. 选择“添加数据 > 批量导入”添加数据。
  3. “批量导入”对话框中选择导入数据的方式。
    • 全量覆盖清除评测集中已有的数据,添加新的数据
    • 追加数据将新的数据添加到评测集中,不会影响评测集中原有的数据
  4. 单击“添加文件”,在弹出的对话框中选择符合模板要求的文件上传。

    单击“下载xlsx模板”“下载jsonl模板”,可以下载批量上传评测集数据的模板。

  5. 单击“导入”,数据项列表中有对应的数据,即完成文件上传。
    图2 导入示例

    jsonl模板示例:

    turns:一个turns表示一组对话数据
    {
        "turns": [{
                "input": "什么是AgentArts?",
                "reference_output": "AgentArts是一个企业级一站式智能体构建与运营平台,旨在通过可视化、低代码方式快速搭建各类AI应用。"
            }, {
                "input": "它主要支持哪些核心功能?",
                "reference_output": "\"其核心能力包括:\n\n1. 灵活编排:支持单智能体、工作流及多智能体协作模式。\n2. 能力集成:内置应用模板、提示词模板及预置模型,支持MC P协议、插件和知识库(RAG)的无缝接入。\n3. 全生命周期管理:覆盖从开发到部署的完整流程,降低大模型应用门槛。\""
            }
        ]
    }{
        "turns": [{
                "input": "为什么选择AgentArts?",
                "reference_output": "1.预置主流大模型:一次接入,随意切换\n2.灵活强大的工作流编排:搞定复杂业务逻辑\n3.企业级RAG知识库:让AI懂您的私有数据\n4.丰富的插件与工具生态:连接外部世界\n5.金融级安全与高并发运行:生产环境首选"
            }, {
                "input": "知识库支持上传哪些类型的文件?",
                "reference_output": "支持Word、PDF、PPT、PNG等多种格式数据一键导入。"
            }
        ]
    }

导入限制说明

  • 支持csv、xlsx、jsonl格式文件,以及包含上述格式文件的zip压缩包。
  • 单个文件最多支持500条数据记录,超过此数量限制将无法导入。
  • 单个文件的大小不得超过50MB。
  • 单次导入操作仅支持上传一个文件。
  1. 在“评测集”页面,单击目标评测集名称,进入详情页面。
  2. 选择“添加数据 > 智能合成”添加数据。
  3. 在“创建智能合成任务”页面,配置合成任务参数。平台将基于当前评测集内的现有数据进行泛化处理,生成符合预期的评测数据。

    等待智能合成任务完成后,您可以将生成的数据添加至当前评测集中。详细信息请参考AI合成评测集

    使用智能合成多轮对话数据时,存在以下约束:

    • 仅支持合成input和reference_output两列数据,不支持新增其他配置列
    • 必须确保当前评测集的列名称为input和reference_output,否则“智能合成”功能将不可用。
      图3 合成示例

常见问题

为什么“智能合成”功能置灰无法使用?

  • 请检查当前评测集的配置列名称。当前版本要求生成多轮对话数据时,配置列名称必须严格匹配为input和reference_output。如果使用了自定义列名(例如:如question、answer),该功能将置灰不可用。请修改列名后重试。
    图4 问题示例1
  • 请确保当前评测集已处于“已提交”状态,“修改未提交”状态下的评测集不支持使用“智能合成”功能。如果评测集尚未提交,请先发布评测集,然后再尝试使用“智能合成”功能。
    图5 问题示例2
  • 智能合成任务的创建次数已达上限,不支持再创建新的任务。
    图6 问题示例3

相关文档