更新时间:2025-09-15 GMT+08:00
分享

批量评估提示词效果

提示词变量是一种灵活的占位符,可以在文本生成过程中动态替换,从而根据不同的场景或用户输入生成多样化的内容。变量名称可以是任何有意义的文字,用于清晰地描述变量的用途或含义,方便后续管理和使用。

约束与限制

  • 上传文件仅支持xlsx格式;
  • 数据集行数需在10至50行之间;
  • 表头名称必须唯一,且表头数量不得大于20个,重复或超出数量的文件将无法导入;
  • 单条数据文本内容的长度不得大于1000个字符,超出限制的文件将无法导入。

创建提示词评估数据集

在进行批量评估之前,请先上传包含提示词变量的数据文件,以便生成评估数据集。

提示词变量是一种灵活的占位符,可以在文本生成过程中动态替换,从而根据不同的场景或用户输入生成多样化的内容。变量名称可以是任何有意义的文字,用于清晰地描述变量的用途或含义,方便后续管理和使用。

  1. 登录Versatile智能体平台,在左侧导航栏“个人空间”区域,选择进入所需空间。

    如果已选择团队空间,界面显示为实际的团队空间名称,而非“个人空间”。

    图1 选择团队空间

  2. 在左侧导航栏中选择“开发中心 > 提示词 > 提示词管理”。
  3. 在提示词管理页面,单击“创建提示词用例”
  4. 在创建数据集页面中,请参考表1完成参数配置

    表1 创建数据集参数说明

    参数

    说明

    存储位置

    在对象存储服务(OBS)中选择需要导入的变量集的路径

    说明:

    如果在当前对象存储服务中没有需要的文件,请先前往OBS中上传文件。

    数据集名称

    用于唯一标识一个数据集,帮助用户快速识别和管理不同的数据集。

    数据集描述

    提供更详细的信息,说明数据集的用途、内容和适用场景,帮助用户更好地理解和使用数据集。

    下载用例示例

    单击即可下载数据集示例文档,以获取格式参考。

  5. 单击“创建”按钮,即可完成数据集的创建。

创建提示词评估任务

  1. 登录Versatile智能体平台,在左侧导航栏“个人空间”区域,选择进入所需空间。

    如果已选择团队空间,界面显示为实际的团队空间名称,而非“个人空间”。

    图2 选择团队空间

  2. 在左侧导航栏中选择“开发中心 > 提示词 > 提示词开发”。
  3. 在工程任务列表页面,找到所需要操作的工程任务,单击该工程任务右侧“撰写”
  4. 在“撰写”页面,单击左侧导航栏中的“候选”。在候选列表中,勾选您需要进行评估的提示词,然后单击“创建评估”

    图3 创建提示词评估

    您也可以通过提示词工程列表左侧的“评估”或“撰写”页面左侧导航栏的“评估”页面创建提示词评估。

  5. 配置评估参数,请参考表2完成参数配置:

    表2 配置评估参数说明

    参数

    说明

    导入评估用例

    选择之前创建好的评估数据集。根据选择的数据集,系统会自动将待评估的提示词与数据集中的变量组合,生成完整的提示词并输入模型进行结果生成。

    选择评估方法

    选择适合的评估方法,系统将根据该方法对模型生成的结果与预期结果进行对比,并通过算法计算出相应的得分。

    分类准确性评估:检查模型生成的结果是否与预期结果匹配。

    相似度匹配:比较模型生成的结果与预期结果的相似程度,判断哪个更接近预期。

    用例评估命名

    批量评估名称

    用于标识评估的名称,便于后续的查找和管理。

    说明:

    命名请参考以下规则:

    • 命名要求:仅支持以中英文开头,以中英文或者数字结尾;
    • 支持字符:中英文、数字、中划线(-)、下划线(_);
    • 长度限制:2~32个字符。

    工程描述

    用于对创建的评估内容和用途的简要说明。

  6. 单击“确定”,评估任务自动进入执行状态。

查看提示词评估结果

估任务创建完成后,系统会自动跳转至“评估”页面。在此页面,您可以查看当前评估任务的状态。

  1. 单击“评估名称”,进入评估任务详情页,可以查看详细的评估进度,例如在图4中有10条评估用例,当前已评估8条,剩余2条待评估。

    图4 查看评估进展

    评估完成后,可以查看每条数据的评估结果。在评估结果中,“预期结果”表示变量值(问题)所预设的期望回答,“生成结果”表示模型回复的结果。通过比对“预期结果”、“生成结果”的差异可以判断提示词效果。

相关文档