创建评测集
评测集是用于评估Agent回复效果的数据集,通常包含两部分:输入数据(input)和预期输出(reference_output)。输入数据作为评估对象的输入,预期输出则是期望的结果,用于作为评估的基准。通过将Agent的实际输出与预期输出进行对比,可以准确评估其准确性,从而发现潜在的问题。
前提条件
- 已开通AgentArts服务。
- 登录用户为空间所有者、空间管理员、开发工程师、运维工程师,详细信息请参考管理团队空间成员。
约束与限制
|
限制 |
说明 |
|---|---|
|
配置列数量上限 |
单个评测集最多支持配置50个属性或参数。 |
|
数据条目数量上限 |
单个评测集包含的数据条目上限为500条。 |
|
单次手动添加上限 |
手动添加数据时,单次最多可添加10条数据项。如需添加更多数据,建议分批次进行操作。 |
|
评测集创建数量上限 |
最多支持创建100个评测集。 |
|
单个评测集容量上限 |
单个评测集的容量限制为500MB。 |
|
评测集总容量上限 |
所有评测集的累计总容量限制为1GB。 |
创建评测集
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评测集”页签中,单击右上角的“创建评测集”。
- 在“创建评测集”页面中填写评测集的信息,参照表2完成配置。
表2 评测集参数说明 参数
说明
基础信息
名称
评测集的名称。
命名规则:
- 命名要求:可以包含中文、英文、数字、下划线(_)、中划线(-)和空格,不允许以空格开头或结尾和使用其他特殊字符。
- 长度限制:2~50个字符。
描述(可选)
评测集的描述。
长度限制:0~200个字符。
配置列
input
指定输入样本的列配置(配置Agent的输入参数描述)。
- 名称:输入列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
- 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表3。
- 必填:设置该列是否为必填项。
- 描述(可选):配置列的描述信息,帮助评测对象更好的理解这个输入数据。长度限制为0~200个字符。
reference_output
配置指定数据集中预期输出的列(配置Agent的期望输出描述)。
- 名称:输入列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
- 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表3。
- 必填:设置该列是否为必填项。
- 描述(可选):配置列的描述信息,帮助评测对象更好地理解预期的输出数据,可以作为评估时的参考标准。长度限制为0~200个字符。
添加配置列
单击“配置列”下方的“+添加列”,即可添加新的列。如果Agent有多个输入参数、输出参数,可以通过此功能进行添加。
- 单击“确定”,系统会根据指定的数据列配置创建一个评测集。
评测集创建成功后,可以在“评测集”页面查看该评测集。
添加评测数据
评测集创建成功之后,您可以给已经创建的评测集中添加数据。
在评测集中手动添加数据
- 手动添加数据
- 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
- 选择“添加数据 > 手动添加”添加数据。
- 在“添加数据”页面,输入第一组测试数据。如果需要添加多组测试数据,单击“+添加数据对话”添加更多的测试数据。
- 如果需要添加多个数据项,单击“+添加数据项”添加多个数据项。
- 单击“确定”完成测试数据添加。
图1 添加数据
- 批量导入数据
- 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
- 选择“添加数据 > 批量导入”添加数据。
- 在“批量导入”对话框中选择导入数据的方式。
- 全量覆盖:清除评测集中已有的数据,添加新的数据。
- 追加数据:将新的数据添加到评测集中,不会影响评测集中原有的数据。
- 单击“添加文件”,在弹出的对话框中选择符合模板要求的文件上传。
- 单击“导入”,数据列表中有对应的数据,即完成文件上传。
模板说明
配置列:展示当前评测集内已定义的所有配置列名称,用于标识和匹配导入的数据。图2 模板填充示例(以xlsx模板为例)
图3 导入示例
导入限制说明
- 支持csv、xlsx、jsonl格式文件,以及包含上述格式文件的zip压缩包。
- 单个文件最多支持500条数据记录,超过此数量限制将无法导入。
- 单个文件的大小不得超过50MB。
- 单次导入操作仅支持上传一个文件。
相关文档
- 评测集创建后,可以在评估任务中使用,具体操作请参考创建评估任务。
- 评测集数据类型
在创建评测集时,需要为每个配置列设置数据类型。设置合理的数据类型有以下几个优点:
- 数据质量:正确的数据类型有助于提高数据的准确性和可靠性,确保评测结果的可信度。
- 使用效率和存储优化:合理设置数据类型可以减少不必要的数据冗余,提高数据的使用效率,同时降低存储成本,使数据管理和使用更加高效。
目前智能体开发平台的评测集支持以下几种数据类型: