更新时间:2025-07-30 GMT+08:00
分享

创建三方大模型评测任务

创建三方大模型评测任务前,请确保已完成创建三方大模型评测数据集操作。

创建三方大模型自动评测任务(基于规则)

创建三方大模型自动评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面,参考表1完成部署参数设置。
    表1 三方大模型自动评测任务参数说明(基于规则)

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。

    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置

    评测规则

    选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。

    评测数据集

    • 预置评测集:使用预置的专业数据集进行评测。
    • 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
  5. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建三方大模型自动评测任务(基于大模型)

创建三方大模型自动评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图2 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面,参考表2完成部署参数设置。
    表2 三方大模型自动评测任务参数说明(基于大模型)

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。

    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置

    评测规则

    选择“基于大模型”:使用能力更强的大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。

    选择模式

    • 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分
    • 对比模式:裁判模型将对比两个模型在每个评测题目上的表现,选择win、lose、tie展示对比结果 ,对比模式下服务来源必须选择2个服务,默认所选择的第一个服务作为基准模型。

    评测数据集

    选择需要评测的数据集。NLP多轮问答场景仅支持基于大模型自动评测,可选择多轮问答评测数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    裁判员配置

    裁判模型

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    打分规则

    打分prompt模板可以选择预置,也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标以及指标,最终单击“保存模板”。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
  5. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建三方大模型人工评测任务

创建三方大模型人工评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图3 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
  3. 在“创建人工评测任务”页面,参考表3完成部署参数设置。
    表3 三方大模型人工评测任务参数说明

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。

    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置

    评测指标

    由用户自定义评测指标并填写评测标准。

    评测数据集

    待评测的数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
  5. 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
  6. 依据页面提示对评估效果区域进行评测打分,全部数据评测完成后单击“提交”。
    • 评测详情页面,单击“盲测”,会隐藏模型名称,进行盲评。
    • 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
    • 单击备注下方“单击以添加备注”,可以进行新增备注。
    • 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
      图4 人工评测

  7. 返回“评测中心 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。

    评测完成之后,进入人工评测列表页面,单击“人工复核”,进行复核评测,复核完成之后,单击“提交”,提交评估结果。

相关文档