文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发三方大模型/ 评测三方大模型/ 创建三方大模型评测任务

更新时间：2026-06-17 GMT+08:00

创建三方大模型评测任务

创建三方大模型评测任务前，请确保已完成创建三方大模型评测数据集操作。

创建三方大模型自动评测任务（基于规则）

创建三方大模型自动评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面，参考表1完成部署参数设置。

表1 三方大模型自动评测任务参数说明（基于规则）
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置	评测规则	选择“基于规则”：基于规则自动打分，即基于相似度/准确率进行打分，对比模型预测结果与标注数据的差异，适合标准选择题或简单问答场景。
	评测数据集	预置评测集：使用预置的专业数据集进行评测。自定义评测集：由用户指定评测指标（F1分数、准确率、BLEU、Rouge）并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。
	评测结果存储位置	模型评测结果的存储位置。
基本信息	任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建三方大模型自动评测任务（基于大模型）

创建三方大模型自动评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图2 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面，参考表2完成部署参数设置。

表2 三方大模型自动评测任务参数说明（基于大模型）
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置	评测规则	选择“基于大模型”：使用能力更强的大模型对被评估模型的生成结果进行自动化打分，适用于开放性或复杂问答场景。
	选择模式	评分模式：裁判模型将根据设置的评分标准对模型推理结果自动进行打分对比模式：裁判模型将对比两个模型在每个评测题目上的表现，选择win、lose、tie展示对比结果，对比模式下服务来源必须选择2个服务，默认所选择的第一个服务作为基准模型。
	评测数据集	选择需要评测的数据集。NLP多轮问答场景仅支持基于大模型自动评测，可选择多轮问答评测数据集。
	评测结果存储位置	模型评测结果的存储位置。
裁判员配置	裁判模型	已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
裁判员配置	打分规则	打分prompt模板可以选择预置，也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”，根据页面输入名称，人设，任务描述，是否包含问题，是否包含参考答案，打分策略，评测指标，最终单击“保存模板”。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建三方大模型人工评测任务

创建三方大模型人工评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图3 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”，单击界面右上角“创建人工评测任务”。

在“创建人工评测任务”页面，参考表3完成部署参数设置。

表3 三方大模型人工评测任务参数说明
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置	评测指标	由用户自定义评测指标并填写评测标准。
	评测数据集	待评测的数据集。
	评测结果存储位置	模型评测结果的存储位置。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 人工评测”页面。
当状态为“待评测”时，可以单击操作列“在线评测”进入评测页面。
依据页面提示对评估效果区域进行评测打分，全部数据评测完成后单击“提交”。
- 评测详情页面，单击“盲测”，会隐藏模型名称，进行盲评。
- 单击“存疑”或者“作废”进行用例的存疑或作废，若取消存疑或作废，单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”，可以进行新增备注。
- 评测页面，长按鼠标左键选中需要标记的文本内容，单击“标记”可以标记成重点内容。
  图4 人工评测
返回“评测平台 > 评测任务 > 人工评测”页面，单击操作列“评测报告”查看模型评测结果。
评测完成之后，进入人工评测列表页面，单击“人工复核”，进行复核评测，复核完成之后，单击“提交”，提交评估结果。

父主题： 评测三方大模型

上一篇：创建API服务

下一篇：查看三方大模型评测报告

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问