文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古NLP大模型/ 评测NLP大模型/ 创建NLP大模型评测任务

更新时间：2025-12-30 GMT+08:00

查看PDF

创建NLP大模型评测任务

创建NLP大模型评测任务前，请确保已完成创建NLP大模型评测数据集操作。

预训练的NLP大模型不支持评测。

创建NLP大模型自动评测任务（基于规则）

创建NLP大模型自动评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测中心 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面，参考表1完成部署参数设置。

表1 NLP大模型自动评测任务参数说明（基于规则）
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置	评测规则	选择“基于规则”：基于规则自动打分，即基于相似度/准确率进行打分，对比模型预测结果与标注数据的差异，适合标准选择题或简单问答场景。
	评测数据集	预置评测集：使用预置的专业数据集进行评测。自定义评测集：由用户指定评测指标（F1分数、准确率、BLEU、Rouge）并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。
	绑定离线结果	选择自定义评测集时，可以选择所选评测集的离线结果。评测任务不调用模型接口，使用离线结果里面的模型回答。
	评测结果存储位置	模型评测结果的存储位置。
基本信息	任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建NLP大模型自动评测任务（基于大模型）

创建NLP大模型自动评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图2 我的空间
在左侧导航栏中选择“评测中心 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面，参考表2完成部署参数设置。

表2 NLP大模型自动评测任务参数说明（基于大模型）
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置（基于大模型）	评测规则	选择“基于大模型”。
	选择模式	评分模式：每个模型独立评测。对比模式：对比两个模型的评测效果，报告上显示的是对比结果。
	评测数据集	选择模型评测所需的数据集。
	绑定离线结果	选择自定义评测集时，可以选择所选评测集的离线结果。评测任务不调用模型接口，使用离线结果里面的模型回答。
	评测结果存储位置	模型评测结果的存储位置。
裁判员配置	裁判模型	已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
裁判员配置	打分规则	打分prompt模板可以选择预置，也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”，根据页面输入名称，人设，任务描述，是否包含问题，是否包含参考答案，打分策略，评测指标，最终单击“保存模板”。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述（可选）	填写评测任务描述。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建NLP大模型自动评测任务（混合评测）

创建NLP大模型自动评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图3 我的空间
在左侧导航栏中选择“评测中心 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面，参考表3表 NLP大模型自动评测任务参数说明（混合评测）完成部署参数设置。

表3 NLP大模型自动评测任务参数说明（混合评测）
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置（混合评测）	评测规则	选择“混合评测”。可同时支持基于规则和基于大模型评测。评测集正确性校验不为空且在规则说明的类型范围内，打分基于规则参见表4。
	选择模式	评分模式：每个模型独立评测。对比模式：对比两个模型的评测效果，报告上显示的是对比结果。
	评测数据集	选择模型评测所需的数据集。
	绑定离线结果	选择自定义评测集时，可以选择所选评测集的离线结果。评测任务不调用模型接口，使用离线结果里面的模型回答。
	评测结果存储位置	模型评测结果的存储位置。
裁判员配置	裁判模型	已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
裁判员配置	打分规则	打分prompt模板可以选择预置，也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”，根据页面输入名称，人设，任务描述，是否包含问题，是否包含参考答案，打分策略，评测指标，最终单击“保存模板”。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述（可选）	填写评测任务描述。

表4 混合评测规则类型及说明
规则类型（中文）	规则类型（英文）	规则解释	打分说明
单选项	single choice	回答不符合规范，只填写选项名，不需要解释，如：A	模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O"，直接比对，如果只出现一次，返回5分，否则1分。
单选项-格式遵从	single choice-format compliance	回答规范符合单选项格式，如：A	规则提取“最终答案”后的字符。模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O"，直接比对，如果只出现一次，返回5分，否则1分。
多选项	multiple entries	回答不符合规范，填写多个选项，不需要分隔符，如：ABC	正则获取“最终答案”后面的字符串。模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O"，直接比对，全部匹配，返回5分，否则1分。
单词条	single entry	回答不符合规范，只填写词条名，不需要解释，如：股市	“\|”切分正确性校验，模型回复一致或者被包含返回5分，否则1分。
方案选择	solution selection	回答不符合规范，只填写词条名，不需要解释，如：股市	“\|”切分正确性校验，模型回复一致或者被包含返回5分，否则1分。
单词条-格式遵从	single entry-format compliance	回答规范符合单词条格式，只填写词条名，不需要解释，如：股市	规则提取“最终答案”后的字符 “\|”切分正确性校验，模型回复一致或者被包含返回5分，否则1分。
多词条	multiple entries	回答不符合规范，包含答案的陈述性语句，以列表形式填写，每个词条以单引号''包含起来,	正确性校验提取所有英文单引号 ' ' 包含的字串不为空，如果字串包含在模型回复中返回5分，否则1分。
工具名选择	tool name selection	回答不符合规范，包含答案的陈述性语句，以列表形式填写，每个词条以单引号''包含起来",	正确性校验提取所有英文单引号 ' ' 包含的字串不为空，如果字串包含在模型回复中返回5分，否则1分。
单数值	single value	回答不符合规范，最终的数值计算结果或结论，无需计算过程，无需名词，无需等式"	正则找出所有的整数、分数、小数。不存在返回1分。尝试判断出现次数，如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”，如果“是”返回5分，否则1分。
单数值-格式遵从	single value-format compliance	回答规范符合单数值格式，最终的数值计算结果或结论，无需计算过程，无需名词，无需等式"	规则提取“最终答案”后的字符正则找出所有的整数、分数、小数。不存在返回1分。尝试判断出现次数，如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”，如果“是”返回5分，否则1分。
多数值	multiple value	回答不符合规范，以此形式填写，列表形式，英文逗号分隔: [18, 16]	正确性校验内容去掉“[”“]”，用“,”分割。循环判断正确性校验数值，正则找出所有的整数、分数、小数。不存在返回1分。尝试判断出现次数，如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”，如果“是”返回5分，否则1分。
包含关键词	contains keywords	回答与关键词校验内容存在包含关系	“\|”切分正确性校验，每一项都出现在模型回复中，返回满分5分，否则1分。
不包含关键词	not contains keywords	回答与关键词校验内容存在不包含关系	“\|”切分正确性校验，每一项都不出现在模型回复中，返回满分5分，否则1分。
选项遵从	choice compliance	回答格式遵从选项	模型回复是否为["A", "B", "C", "D", "E"]中的一项，“是”返回满分5分，否则1分。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建NLP大模型人工评测任务

创建NLP大模型人工评测任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图4 我的空间
在左侧导航栏中选择“评测中心 > 评测任务”，单击界面右上角“创建人工评测任务”。

在“创建人工评测任务”页面，参考表5完成部署参数设置。

表5 NLP大模型人工评测任务参数说明
参数分类	参数名称	参数说明
选择服务	评测类型	选择“大语言模型”。
选择服务	服务来源	支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openAI、tgi、自定义三种格式。 openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式； tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置	评测指标	由用户自定义评测指标并填写评测标准。
	评测数据集	待评测的数据集。
	绑定离线结果	选择自定义评测集时，可以选择所选评测集的离线结果。评测任务不调用模型接口，使用离线结果里面的模型回答。
	是否开启盲测	开启盲测后，人工打分时将看不到模型名称，且多个模型的排列顺序是打乱的。
	评测人员	只可选择超级管理员、空间管理员、模型开发工程师。配置评测人员后，只有配置的人员才能对该评测任务评分，且必须所有配置的人员都对所有case评分后才能生成评测报告。
	评测结果存储位置	模型评测结果的存储位置。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 人工评测”页面。
当状态为“待评测”时，可以单击操作列“在线评测”进入评测页面。
依据页面提示完成评测，全部数据评测完成后单击“提交”。
- 单击“存疑”或者“作废”进行用例的存疑或作废，若取消存疑或作废，单击“取消存疑”或“取消作废”进行处理。
- 给用例的所有评估指标打分，单击“保存并下一个”，可保存分数并切换到下一个用例
- 单击“上一个”，可以回到上一个用户重新打分
- 单击备注下方“单击以添加备注”，可以进行新增备注。
- 评测页面，长按鼠标左键选中需要标记的文本内容，单击“标记”可以标记成重点内容。
  图5 人工评测
返回“评测中心 > 评测任务 > 人工评测”页面，单击操作列“评测报告”查看模型评测结果。
评测完成之后，进入人工评测列表页面，单击“人工复核”，进行复核评测，复核完成之后，单击“提交”，提交评估结果。

父主题： 评测NLP大模型

上一篇：创建API服务

下一篇：查看NLP大模型评测报告

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

创建NLP大模型评测任务

创建NLP大模型自动评测任务（基于规则）

创建NLP大模型自动评测任务（基于大模型）

创建NLP大模型自动评测任务（混合评测）

创建NLP大模型人工评测任务

相关文档

意见反馈

文档内容是否对您有帮助？