人工创建单轮评测集

评测集是用于评估Agent回复效果的数据集，通常包含两部分：输入数据（input）和预期输出（reference_output）。输入数据作为评估对象的输入，预期输出则是期望的结果，用于作为评估的基准。通过将Agent的实际输出与预期输出进行对比，可以准确评估其准确性，从而发现潜在的问题。

前提条件

已开通AgentArts服务。

约束与限制

表1 使用限制
限制	说明
配置列数量上限	单个评测集最多支持配置50个属性或参数。
数据条目数量上限	单个评测集最多包含5000条数据。
单次手动添加上限	手动添加数据时，单次最多可添加10条数据项。如需添加更多数据，建议分批次进行操作。
评测集创建数量上限	最多支持创建100个评测集。
单个评测集容量上限	单个评测集的容量上限为50MB。
评测集总容量上限	所有评测集的累计总容量上限为1GB。

步骤一：创建评测集

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估 > 评测集”，选择“评测集”页签。

单击右上角的“创建评测集”，在“创建评测集”页面中填写评测集的信息，参照表2完成配置。

表2 评测集参数说明
参数		说明	示例
基础信息	名称	评测集的名称。命名规则：命名要求：可以包含中文、英文、数字、下划线（_）、中划线（-）和空格，不允许以空格开头或结尾，且不允许使用其他特殊字符。长度限制：2~50个字符。	科学知识数据集
基础信息	描述（可选）	评测集的描述。长度限制：0~200个字符。	用于评估“科学知识助手”智能体，需包含科学概念解释、原理机制阐述、实验操作指导、科普常识问答等相关语料。
配置列	input	指定输入样本的列配置（配置Agent的输入参数描述）。名称：输入的列名称。支持数字、字母、下划线，且必须以字母开头，长度1~50个字符。数据类型：选择合适的数据类型。通过校验数据类型，可以避免数据不匹配的问题，确保评测数据的质量。评测集数据类型的详细信息，请参考表3。必填：设置该列是否为必填项。描述（可选）：配置列的描述信息，帮助评测对象更好的理解这个输入数据。长度限制为0~200个字符。	input
	reference_output	配置指定数据集中预期输出的列（配置期望Agent输出描述）。名称：预期输出的列名称。支持数字、字母、下划线，且必须以字母开头，长度1~50个字符。数据类型：选择合适的数据类型。通过校验数据类型，可以避免数据不匹配的问题，确保评测数据的质量。评测集数据类型的详细信息，请参考表3。必填：设置该列是否为必填项。描述（可选）：配置列的描述信息，帮助评测对象更好地理解预期的输出数据，可以作为评估时的参考标准。长度限制为0~200个字符。	reference_output
	添加配置列	单击“配置列”下方的“+添加列”，即可添加新的列。如果Agent有多个输入参数、输出参数，可以通过此功能进行添加。	-

单击“确定”，系统会根据指定的数据列配置创建一个评测集。
评测集创建成功后，可以在“评测集”页面查看该评测集。

步骤二：添加单轮数据

评测集创建成功之后，在评测集详情页面，您可以给已经创建的评测集中添加数据。

手动添加：适用于添加少量、临时性的测试数据。
批量导入：适用于已有大量数据，需快速导入的场景。
智能合成：适用于基于少量种子数据自动泛化生成大量测试数据的场景。

在“评测集”页面，单击需要添加数据的评测集名称进入详情页面。
选择“添加数据 > 手动添加”添加数据。
在“添加数据”页面，输入第一组测试数据。
如果需要添加多个数据项，单击“+添加数据项”添加多个数据项。
单击“确定”完成测试数据添加。
图1 添加数据

在“评测集”页面，单击需要添加数据的评测集名称进入详情页面。
选择“添加数据 > 批量导入”添加数据。
在“批量导入”对话框中选择导入数据的方式。
- 全量覆盖：清除评测集中已有的数据，添加新的数据。选择“全量覆盖”将清除目标评测集当前版本的所有已有数据，此操作不可直接撤销。如需恢复，可通过评测集的“版本历史”功能还原至覆盖前的版本。
- 追加数据：将新的数据添加到评测集中，不会影响评测集中原有的数据。
单击“添加文件”，在弹出的对话框中选择符合模板要求的文件上传。
单击“下载xlsx模板”或“下载jsonl模板”，可以下载批量上传评测集数据的模板。
单击“导入”，数据项列表中有对应的数据，即完成文件上传。

模板说明

配置列：展示当前评测集内已定义的所有配置列名称，用于标识和匹配导入的数据。

图2 模板填充示例（以xlsx模板为例）

图3 导入示例

导入限制说明

支持csv、xlsx、jsonl格式文件，以及包含上述格式文件的zip压缩包。
单个文件最多支持5000条数据记录，超过此数量限制将无法导入。
单个文件的大小不得超过50MB。
单次导入操作仅支持上传一个文件。

在“评测集”页面，单击目标评测集名称，进入详情页面。
在“数据项”右侧选择“添加数据 > 智能合成”添加数据。
在“创建智能合成任务”页面，配置合成任务的相关参数。平台将基于当前评测集内的现有数据进行泛化处理，以生成符合预期的评测数据。
等待智能合成任务完成后，您可以将生成的数据添加至当前评测集中。详细信息请参考AI合成评测集。

表3 评测集数据类型说明
数据类型	说明	示例
String	字符串，可用于存储任何数据类型。	“你好”
Integer	整数，可用于存储不带小数的数值。	123
Float	浮点数，可用于存储带有小数的数值。	12.3
Boolean	布尔值，可用于存储true或false的逻辑值。	true