更新时间:2026-03-20 GMT+08:00
分享

创建评测集

评测集是用于评估Agent回复效果的数据集,通常包含两部分:输入数据(input)和预期输出(reference_output)。输入数据作为评估对象的输入,预期输出则是期望的结果,用于作为评估的基准。通过将Agent的实际输出与预期输出进行对比,可以准确评估其准确性,从而发现潜在的问题。

前提条件

约束与限制

表1 使用限制

限制

说明

配置列数量上限

单个评测集最多支持配置50个属性或参数。

数据条目数量上限

单个评测集包含的数据条目上限为500条。

单次手动添加上限

手动添加数据时,单次最多可添加10条数据项。如需添加更多数据,建议分批次进行操作。

评测集创建数量上限

最多支持创建100个评测集。

单个评测集容量上限

单个评测集的容量限制为500MB。

评测集总容量上限

所有评测集的累计总容量限制为1GB。

创建评测集

  1. 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
  2. 在左侧导航栏中选择“运营运维 > 评估”,在“评测集”页签中,单击右上角的“创建评测集”。
  3. 在“创建评测集”页面中填写评测集的信息,参照表2完成配置。

    表2 评测集参数说明

    参数

    说明

    基础信息

    名称

    评测集的名称。

    命名规则:

    • 命名要求:可以包含中文、英文、数字、下划线(_)、中划线(-)和空格,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评测集的描述。

    长度限制:0~200个字符。

    配置列

    input

    指定输入样的列配置(配置Agent的输入参数描述)。

    • 名称:输入列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
    • 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表3
    • 必填:设置该列是否为必填项。
    • 描述(可选):配置列的描述信息,帮助评测对象更好的理解这个输入数据。长度限制为0~200个字符。

    reference_output

    配置指定数据集中预期输出的列(配置Agent的期望输出描述)。

    • 名称:输入列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
    • 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表3
    • 必填:设置该列是否为必填项。
    • 描述(可选):配置列的描述信息,帮助评测对象更好地理解预期的输出数据,可以作为评估时的参考标准。长度限制为0~200个字符。

    添加配置列

    单击“配置列”下方的“+添加列”,即可添加新的列。如果Agent有多个输入参数、输出参数,可以通过此功能进行添加。

  4. 单击“确定”,系统会根据指定的数据列配置创建一个评测集。

    评测集创建成功后,可以在“评测集”页面查看该评测集。

添加评测数据

评测集创建成功之后,您可以给已经创建的评测集中添加数据。

在评测集中手动添加数据

  • 手动添加数据
    1. 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
    2. 选择“添加数据 > 手动添加”添加数据。
    3. “添加数据”页面,输入第一组测试数据。如果需要添加多组测试数据,单击“+添加数据对话”添加更多的测试数据。
    4. 如果需要添加多个数据项,单击“+添加数据项”添加多个数据项。
    5. 单击“确定”完成测试数据添加。
      图1 添加数据
  • 批量导入数据
    1. 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
    2. 选择“添加数据 > 批量导入”添加数据。
    3. “批量导入”对话框中选择导入数据的方式。
      • 全量覆盖清除评测集中已有的数据,添加新的数据
      • 追加数据将新的数据添加到评测集中,不会影响评测集中原有的数据
    4. 单击“添加文件”,在弹出的对话框中选择符合模板要求的文件上传。

      单击“下载xlsx模板”“下载jsonl模板”,可以下载批量上传评测集数据的模板。

    5. 单击“导入”,数据列表中有对应的数据,即完成文件上传。

    模板说明

    配置列:展示当前评测集内已定义的所有配置列名称,用于标识和匹配导入的数据。
    图2 模板填充示例(以xlsx模板为例)
    图3 导入示例

    导入限制说明

    • 支持csv、xlsx、jsonl格式文件,以及包含上述格式文件的zip压缩包。
    • 单个文件最多支持500条数据记录,超过此数量限制将无法导入。
    • 单个文件的大小不得超过50MB。
    • 单次导入操作仅支持上传一个文件。

相关文档

  • 评测集创建后,可以在评估任务中使用,具体操作请参考创建评估任务
  • 评测集数据类型

    在创建评测集时,需要为每个配置列设置数据类型。设置合理的数据类型有以下几个优点:

    • 数据质量:正确的数据类型有助于提高数据的准确性和可靠性,确保评测结果的可信度。
    • 使用效率和存储优化:合理设置数据类型可以减少不必要的数据冗余,提高数据的使用效率,同时降低存储成本,使数据管理和使用更加高效。

    目前智能体开发平台的评测集支持以下几种数据类型:

    表3 评测集数据类型说明

    数据类型

    说明

    示例

    String

    字符串,可用于存储任何数据类型。

    “你好”

    Integer

    整数,可用于存储不带小数的数值。

    123

    Float

    浮点数,可用于存储带有小数的数值。

    12.3

    Boolean

    布尔值,可用于存储true或false的逻辑值。

    true

相关文档