更新时间:2026-04-15 GMT+08:00
分享

人工创建单轮评测集

评测集是用于评估Agent回复效果的数据集,通常包含两部分:输入数据(input)和预期输出(reference_output)。输入数据作为评估对象的输入,预期输出则是期望的结果,用于作为评估的基准。通过将Agent的实际输出与预期输出进行对比,可以准确评估其准确性,从而发现潜在的问题。

前提条件

开通AgentArts服务

约束与限制

表1 使用限制

限制

说明

配置列数量上限

单个评测集最多支持配置50个属性或参数。

数据条目数量上限

单个评测集最多包含500条数据。

单次手动添加上限

手动添加数据时,单次最多可添加10条数据项。如需添加更多数据,建议分批次进行操作。

评测集创建数量上限

最多支持创建100个评测集。

单个评测集容量上限

单个评测集的容量上限为50MB。

评测集总容量上限

所有评测集的累计总容量上限为1GB。

步骤一:创建评测集

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估 > 评测集”,选择“评测集”页签。
  3. 单击右上角的“创建评测集”,在“创建评测集”页面中填写评测集的信息,参照表2完成配置。
    表2 评测集参数说明

    参数

    说明

    示例

    基础信息

    名称

    评测集的名称。

    命名规则:

    • 命名要求:可以包含中文、英文、数字、下划线(_)、中划线(-)和空格,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    科学知识数据集

    描述(可选)

    评测集的描述。

    长度限制:0~200个字符。

    用于评估“科学知识助手”智能体,需包含科学概念解释、原理机制阐述、实验操作指导、科普常识问答等相关语料。

    配置列

    input

    指定输入样的列配置(配置Agent的输入参数描述)。

    • 名称:输入的列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
    • 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表3
    • 必填:设置该列是否为必填项。
    • 描述(可选):配置列的描述信息,帮助评测对象更好的理解这个输入数据。长度限制为0~200个字符。

    input

    reference_output

    配置指定数据集中预期输出的列(配置期望Agent输出描述)。

    • 名称:预期输出的列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
    • 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表3
    • 必填:设置该列是否为必填项。
    • 描述(可选):配置列的描述信息,帮助评测对象更好地理解预期的输出数据,可以作为评估时的参考标准。长度限制为0~200个字符。

    reference_output

    添加配置列

    单击“配置列”下方的“+添加列”,即可添加新的列。如果Agent有多个输入参数、输出参数,可以通过此功能进行添加。

    -

  4. 单击“确定”,系统会根据指定的数据列配置创建一个评测集。

    评测集创建成功后,可以在“评测集”页面查看该评测集。

步骤二:添加单轮数据

评测集创建成功之后,在评测集详情页面,您可以给已经创建的评测集中添加数据。

  • 手动添加:适用于添加少量、临时性的测试数据。
  • 批量导入:适用于已有大量数据,需快速导入的场景。
  • 智能合成:适用于基于少量种子数据自动泛化生成大量测试数据的场景。
  1. 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
  2. 选择“添加数据 > 手动添加”添加数据。
  3. “添加数据”页面,输入第一组测试数据。

    如果需要添加多个数据项,单击“+添加数据项”添加多个数据项。

  4. 单击“确定”完成测试数据添加。
    图1 添加数据
  1. 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
  2. 选择“添加数据 > 批量导入”添加数据。
  3. “批量导入”对话框中选择导入数据的方式。
    • 全量覆盖清除评测集中已有的数据,添加新的数据
    • 追加数据将新的数据添加到评测集中,不会影响评测集中原有的数据
  4. 单击“添加文件”,在弹出的对话框中选择符合模板要求的文件上传。

    单击“下载xlsx模板”“下载jsonl模板”,可以下载批量上传评测集数据的模板。

  5. 单击“导入”,数据项列表中有对应的数据,即完成文件上传。

模板说明

配置列:展示当前评测集内已定义的所有配置列名称,用于标识和匹配导入的数据。
图2 模板填充示例(以xlsx模板为例)
图3 导入示例

导入限制说明

  • 支持csv、xlsx、jsonl格式文件,以及包含上述格式文件的zip压缩包。
  • 单个文件最多支持500条数据记录,超过此数量限制将无法导入。
  • 单个文件的大小不得超过50MB。
  • 单次导入操作仅支持上传一个文件。
  1. 在“评测集”页面,单击目标评测集名称,进入详情页面。
  2. “数据项”右侧选择“添加数据 > 智能合成”添加数据。
  3. 在“创建智能合成任务”页面,配置合成任务的相关参数。平台将基于当前评测集内的现有数据进行泛化处理,以生成符合预期的评测数据。

    等待智能合成任务完成后,您可以将生成的数据添加至当前评测集中。详细信息请参考AI合成评测集

相关文档

  • 评测集创建后,可以在评估任务中使用,具体操作请参考创建离线评估任务
  • 评测集数据类型

    在创建评测集时,需要为每个配置列设置数据类型。设置合理的数据类型有以下几个优点:

    • 数据质量:正确的数据类型有助于提高数据的准确性和可靠性,确保评测结果的可信度。
    • 使用效率和存储优化:合理设置数据类型可以减少不必要的数据冗余,提高数据的使用效率,同时降低存储成本,使数据管理和使用更加高效。

    目前智能体开发平台的评测集支持以下几种数据类型:

    表3 评测集数据类型说明

    数据类型

    说明

    示例

    String

    字符串,可用于存储任何数据类型。

    “你好”

    Integer

    整数,可用于存储不带小数的数值。

    123

    Float

    浮点数,可用于存储带有小数的数值。

    12.3

    Boolean

    布尔值,可用于存储true或false的逻辑值。

    true

常见问题

为什么“智能合成”功能置灰无法使用?

  • 请确保当前评测集已处于“已提交”状态,“修改未提交”状态下的评测集不支持使用“智能合成”功能。如果评测集尚未提交,请先发布评测集,然后再尝试使用“智能合成”功能。
    图4 问题示例2
  • 智能合成任务的创建次数已达上限,不支持再创建新的任务。
    图5 问题示例3

相关文档