创建评测集
评测集是用于评估Agent回复效果的数据集,通常包含两部分:输入数据(input)和预期输出(reference_output)。输入数据作为评估对象的输入,预期输出则是期望的结果,用于作为评估的基准。通过将Agent的实际输出与预期输出进行对比,可以准确评估其准确性,从而发现潜在的问题。
前提条件
- 已开通AgentArts服务。
- 登录用户为空间所有者、空间管理员、开发工程师、运维工程师,详细信息请参考管理团队空间成员。
约束与限制
|
限制 |
说明 |
|---|---|
|
配置列数量上限 |
单个评测集最多支持配置50个属性或参数。 |
|
数据条目数量上限 |
单个评测集包含的数据条目上限为500条。 |
|
单次手动添加上限 |
手动添加数据时,单次最多可添加10条数据项。如需添加更多数据,建议分批次进行操作。 |
|
评测集创建数量上限 |
最多支持创建100个评测集。 |
|
单个评测集容量上限 |
单个评测集的容量限制为500MB。 |
|
评测集总容量上限 |
所有评测集的累计总容量限制为1GB。 |
创建评测集
- 登录AgentArts智能体平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏中选择“运营运维 > 评估”,在“评测集”页签中,单击右上角的“创建评测集”。
- 在“创建评测集”页面中填写评测集的信息,参照表2完成配置。
表2 评测集参数说明 参数
说明
基础信息
名称
评测集的名称。
命名规则:
- 命名要求:可以包含中文、英文、数字、下划线(_)、中划线(-)和空格,不允许以空格开头或结尾和使用其他特殊字符。
- 长度限制:2~50个字符。
描述(可选)
评测集的描述。
长度限制:0~200个字符。
配置列
input
指定输入样本的列配置(配置Agent的输入参数描述)。
- 名称:输入列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
- 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表4。
- 必填:设置该列是否为必填项。
- 描述(可选):配置列的描述信息,帮助评测对象更好的理解这个输入数据。长度限制为0~200个字符。
reference_output
配置指定数据集中预期输出的列(配置Agent的期望输出描述)。
- 名称:输入列名称。支持数字、字母、下划线,且必须以字母开头,长度1~50个字符。
- 数据类型:选择合适的数据类型。通过校验数据类型,可以避免数据不匹配的问题,确保评测数据的质量。评测集数据类型的详细信息,请参考表4。
- 必填:设置该列是否为必填项。
- 描述(可选):配置列的描述信息,帮助评测对象更好地理解预期的输出数据,可以作为评估时的参考标准。长度限制为0~200个字符。
添加配置列
单击“配置列”下方的“+添加列”,即可添加新的列。如果Agent有多个输入参数、输出参数,可以通过此功能进行添加。
- 单击“确定”,系统会根据指定的数据列配置创建一个草稿版本的评测集。评测集必须发布后才能在评测任务中使用,发布评测集,请参考发布评测集版本。
评测集创建成功后,可以在“评测集”页面查看该评测集。
添加评测数据
评测集创建成功之后,您可以给已经创建的评测集中添加数据。
在评测集中手动添加数据
- 在“评测集”页面,单击需要添加数据的评测集名称进入详情页面。
- 在评测集详情页面,选择“手动添加”添加数据。
- 在“添加数据”页面,输入Agent的输入数据,以及期望输出。评估过程中,Agent产生的真实输出会与期望输出进行比对,用于评估Agent。
如果需要添加多个数据项,单击左侧的“+添加数据项”添加多个数据项。
- 单击“确定”完成数据添加。
图1 添加数据
发布评测集版本
完成评测集数据的添加后,发布评测集版本。
- 在评测集的详情页面,单击右上角的“发布新版本”。
- 在“发布新版本”的弹框中,输入“版本”和“版本说明(可选)”信息。
- 单击“发布”,完成评测集版本发布。
- 版本格式为a.b.c,其中每段数字的范围为0-999。
- 同一个评测集发布的版本号应大于之前的历史版本号。
使用评测集
评测集主要用于在评估任务中为评估对象提供输入数据和预期输出数据。通过评测集,您可以验证评估对象的回复效果,并进行持续优化。在评估任务中,您可以执行以下操作:
- 保持评测集和评估对象不变:配置同一评估器的不同版本。这样,您可以在不改变评测集和评估对象的情况下,测试同一数据集和评估对象在不同评估器的得分情况。
- 分析评估结果:在第一轮评估结束后,您可以在评估任务中查看当前版本的数据表现,定位待优化数据样本。
- 修正数据:根据评估结果,您可以修正或优化评测集中的数据,例如添加更多样化的数据样本或修正错误数据。
- 进行新一轮验证:修正数据后,您可以重新创建评估任务,使用新的评测集版本进行验证。通过多次迭代,逐步优化评测集数据。
- 循环优化:通过评估-优化的循环过程,您可以不断改进评测集数据,提高评估的准确性和可靠性。
通过以上步骤,您可以更好地优化评测集数据,确保评测任务的顺利进行和结果的可靠性。使用评测集的具体信息请参考创建评估任务。
更多操作
评测集创建完成后,还可以执行如表3的操作。
|
操作 |
说明 |
|---|---|
|
导出评测集 |
可以通过以下步骤导出评测集数据。
|
|
编辑评测集 |
可以通过以下两种方法来编辑评测集的基本信息,包括添加或删除数据列:
说明:
|
|
删除 |
可以通过以下两种方法删除评测集。评测任务中关联的评测集无法被删除。
|
|
编辑评测集数据 |
可以通过以下步骤编辑评测集数据。
说明:
编辑评测集中的数据项后,评测集将变为“修改未提交”状态。 如果要在评估任务中使用编辑后的评测集,请将修改后的评测集发布为最新版本。 |
|
删除评测集数据 |
在评测集详情页面,单击目标数据项“操作”列下的“删除”,在弹出的“删除数据项”对话框中,根据界面提示输入执行信息,然后单击“确定”删除数据项。 |
|
查看历史评测集版本 |
在评测集的详情页面,单击右上角的 评测集支持对历史版本进行还原和删除操作:
说明:
不支持修改历史版本的评测集数据。 |
|
自定义显示列信息 |
单击筛选框右侧的
图2 自定义显示列信息
|
相关文档
- 评测集创建后,可以在评估任务中使用,具体操作请参考创建评估任务。
- 评测集数据类型
在创建评测集时,需要为每个配置列设置数据类型。设置合理的数据类型有以下几个优点:
- 数据质量:正确的数据类型有助于提高数据的准确性和可靠性,确保评测结果的可信度。
- 使用效率和存储优化:合理设置数据类型可以减少不必要的数据冗余,提高数据的使用效率,同时降低存储成本,使数据管理和使用更加高效。
目前智能体平台的评测集支持以下几种数据类型:




