批量评估提示词效果
提示词变量是一种灵活的占位符,可以在文本生成过程中动态替换,从而根据不同的场景或用户输入生成多样化的内容。变量名称可以是任何有意义的文字,用于清晰地描述变量的用途或含义,方便后续管理和使用。
约束与限制
- 上传文件仅支持xlsx格式;
- 数据集行数需在10至50行之间;
- 表头名称必须唯一,且表头数量不得大于20个,重复或超出数量的文件将无法导入;
- 单条数据文本内容的长度不得大于1000个字符,超出限制的文件将无法导入。
创建提示词评估数据集
在进行批量评估之前,请先上传包含提示词变量的数据文件,以便生成评估数据集。
提示词变量是一种灵活的占位符,可以在文本生成过程中动态替换,从而根据不同的场景或用户输入生成多样化的内容。变量名称可以是任何有意义的文字,用于清晰地描述变量的用途或含义,方便后续管理和使用。
- 登录Versatile智能体平台,在左侧导航栏“个人空间”区域,选择进入所需空间。
如果已选择团队空间,界面显示为实际的团队空间名称,而非“个人空间”。
图1 选择团队空间 - 在左侧导航栏中选择“开发中心 > 提示词 > 提示词管理”。
- 在提示词管理页面,单击“创建提示词用例”。
- 在创建数据集页面中,请参考表1完成参数配置
表1 创建数据集参数说明 参数
说明
存储位置
在对象存储服务(OBS)中选择需要导入的变量集的路径
说明:如果在当前对象存储服务中没有需要的文件,请先前往OBS中上传文件。
数据集名称
用于唯一标识一个数据集,帮助用户快速识别和管理不同的数据集。
数据集描述
提供更详细的信息,说明数据集的用途、内容和适用场景,帮助用户更好地理解和使用数据集。
下载用例示例
单击即可下载数据集示例文档,以获取格式参考。
- 单击“创建”按钮,即可完成数据集的创建。
创建提示词评估任务
- 登录Versatile智能体平台,在左侧导航栏“个人空间”区域,选择进入所需空间。
如果已选择团队空间,界面显示为实际的团队空间名称,而非“个人空间”。
图2 选择团队空间 - 在左侧导航栏中选择“开发中心 > 提示词 > 提示词开发”。
- 在工程任务列表页面,找到所需要操作的工程任务,单击该工程任务右侧“撰写”。
- 在“撰写”页面,单击左侧导航栏中的“候选”。在候选列表中,勾选您需要进行评估的提示词,然后单击“创建评估”。
图3 创建提示词评估
您也可以通过提示词工程列表左侧的“评估”或“撰写”页面左侧导航栏的“评估”页面创建提示词评估。
- 配置评估参数,请参考表2完成参数配置:
表2 配置评估参数说明 参数
说明
导入评估用例
选择之前创建好的评估数据集。根据选择的数据集,系统会自动将待评估的提示词与数据集中的变量组合,生成完整的提示词并输入模型进行结果生成。
选择评估方法
选择适合的评估方法,系统将根据该方法对模型生成的结果与预期结果进行对比,并通过算法计算出相应的得分。
分类准确性评估:检查模型生成的结果是否与预期结果匹配。
相似度匹配:比较模型生成的结果与预期结果的相似程度,判断哪个更接近预期。
用例评估命名
批量评估名称
用于标识评估的名称,便于后续的查找和管理。
说明:命名请参考以下规则:
- 命名要求:仅支持以中英文开头,以中英文或者数字结尾;
- 支持字符:中英文、数字、中划线(-)、下划线(_);
- 长度限制:2~32个字符。
工程描述
用于对创建的评估内容和用途的简要说明。
- 单击“确定”,评估任务自动进入执行状态。
查看提示词评估结果
估任务创建完成后,系统会自动跳转至“评估”页面。在此页面,您可以查看当前评估任务的状态。
- 单击“评估名称”,进入评估任务详情页,可以查看详细的评估进度,例如在图4中有10条评估用例,当前已评估8条,剩余2条待评估。