文档首页/ 魔坊（ModelArts）模型训推平台/ 模型评测/ 模型评测/ 创建模型评测任务

更新时间：2026-07-15 GMT+08:00

创建模型评测任务

前提条件

已注册华为账号并开通华为云，进行了实名认证，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。具体操作，请参见注册华为账号并开通华为云和实名认证介绍。
配置委托访问授权
 ModelArts使用过程中涉及到OBS等服务交互，首次使用ModelArts需要用户配置委托授权，允许访问这些依赖服务。

计费说明

如果您将数据存储到对象存储OBS，会涉及存储资源费用，计费详情请参见OBS计费概述。

约束限制

仅新版控制台支持。
仅支持大语言模型评测。

创建自动评测任务（基于规则）

创建自动评测任务步骤如下：

前往ModelArts管理控制台。
在控制台左侧导航栏选择“模型评测 > 评测任务”，在“自动评测”页签右上角，单击“创建”。

在“创建自动评测任务”页面，参考表1完成部署参数设置。

表1 自动评测任务参数说明（基于规则）
参数分类	参数名称	参数说明
基本信息	任务名称	评测任务名称。任务名称字段要求输入以中文、字母开头，以中文、字母、数字结尾，长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。
基本信息	描述	填写评测任务描述，该字段可选。
评测对象	评测类型	当前仅支持“文本生成”类型。
评测对象	添加服务	选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。
评测配置	评测规则	选择“基于规则”：基于规则自动打分，即基于相似度/准确率进行打分，对比模型预测结果与标注数据的差异，适合标准选择题或简单问答场景。
	评测数据集	预置评测集：使用预置的专业数据集进行评测。自定义评测集：由用户上传评测数据集并指定自定义评测指标（F1分数、准确率、BLEU、ROUGE）进行评测。支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或“/”开头，以“.jsonl”结尾，且除前缀外不得出现“//”，例如obs://bucketname/example.jsonl或者/bucketname/example.jsonl。评测集需上传单个.jsonl文件，文件大小不超过10MB，最大1000条。示例如下： {"case_no":"1","corpus_no":"1","class_level1":"category1","class_level2":"category2","question":"hello","ref_answer":"What can I do for you today?","question_type":"common question type"}
	自定义评测指标	仅“评测数据集”选择“自定义评测集”时，需配置该参数。您可以按需选中评测指标。 F1分数：精确率和召回率的调和平均数，分数越高表示模型在这两个指标上表现越好，即模型在精确率和召回率之间取得了更好的平衡。准确率：正确预测（标注与预测完全匹配）的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高，模型的效果越好。 BLEU：用来衡量机器翻译文本与参考文本之间的相似程度的指标。分数越高表示模型机器翻译效果越好。 ROUGE：评估自动摘要以及机器翻译的一组指标，它通过将自动生成的摘要或翻译与参考答案进行相似度比较，分数越高表示模型效果越好。
	评测结果存储位置	模型评测结果的存储位置。支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或者“/”开头，以“/”结尾，且除前缀外不得出现“//”，例如obs://bucketname/path/或者/bucketname/path/。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建自动评测任务（基于大模型）

创建自动评测任务步骤如下：

前往ModelArts管理控制台。
在控制台左侧导航栏选择“模型评测 > 评测任务”，在评测任务工作区左上角选择“自动评测”页签后，选择“创建”。

在“创建自动评测任务”页面，参考表2完成部署参数设置。

表2 自动评测任务参数说明（基于大模型）
参数分类	参数名称	参数说明
基本信息	任务名称	评测任务名称。任务名称字段要求输入以中文、字母开头，以中文、字母、数字结尾，长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。
基本信息	描述	填写评测任务描述，该字段可选。
评测对象	评测类型	当前仅支持“文本生成”类型。
评测对象	添加服务	选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。
评测配置	评测规则	选择“基于大模型”。
	选择模式	评分模式：裁判模型将根据设置的评分标准对模型推理结果自动进行打分。对比模式：模型将对比每个模型服务和基准模型服务的表现，选择win、lose、tie展示对比结果，对比模式下服务必须选择2个及以上。
	评测数据集	预置评测集：使用预置的专业数据集进行评测。最多只能添加一个预置评测集。自定义评测集：支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或“/”开头，以“.jsonl”结尾，且除前缀外不得出现“//”，例如obs://bucketname/example.jsonl或者/bucketname/example.jsonl。评测集需上传单个.jsonl文件，文件大小不超过10MB，最大1000条。示例如下： {"case_no":"1","corpus_no":"1","class_level1":"category1","class_level2":"category2","question":"hello","ref_answer":"What can I do for you today?","question_type":"common question type"}
	评测结果存储位置	模型评测结果的存储位置。支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或者“/”开头，以“/”结尾，且除前缀外不得出现“//”，例如obs://bucketname/path/或者/bucketname/path/。
裁判员配置	裁判模型	选择已部署至ModelArts平台的模型进行评测。
裁判员配置	打分规则	打分prompt模板可以选择预置，也可以选择自定义。预置prompt不支持修改。创建自定义prompt模板需要在“编辑自定义规则”右侧对话框选择“新建”，根据页面输入名称，人设，任务描述，是否包含问题，是否包含参考答案，打分策略，评测指标，最终单击“保存模板”。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 自动评测”页面。单租户可以创建的最大评测任务数为2000。
当状态为“已完成”时，可以单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的评测报告和详情。

创建人工评测任务

创建人工评测任务步骤如下：

前往ModelArts管理控制台。
在控制台左侧导航栏选择“模型评测 > 评测任务”，在“人工评测”页签右上角，单击“创建”。

在“创建人工评测任务”页面，参考表3完成部署参数设置。

表3 人工评测任务参数说明
参数分类	参数名称	参数说明
基本信息	任务名称	评测任务名称。任务名称字段要求输入以中文、字母开头，以中文、字母、数字结尾，长度2~32的字符。只允许输入中文、字母、数字、中划线、下划线字符。
基本信息	描述	填写评测任务描述，该字段可选。
评测对象	评测类型	当前仅支持“文本生成”类型。
评测对象	添加服务	选择部署至ModelArts平台的模型进行评测。单次最多可评测10个模型。
评测配置	评测指标	由用户自定义评测指标并填写评测标准，最多支持同时添加6个指标。
	评测数据集	待评测的数据集。支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或“/”开头，以“.jsonl”结尾，且除前缀外不得出现“//”，例如obs://bucketname/example.jsonl或者/bucketname/example.jsonl。评测集需上传单个.jsonl文件，文件大小不超过10MB，最大1000条。示例如下： {"case_no":"1","corpus_no":"1","class_level1":"category1","class_level2":"category2","question":"hello","ref_answer":"What can I do for you today?","question_type":"common question type"}
	是否开启盲测	开启盲测后，人工打分时将看不到模型名称，且多个模型的排列顺序是打乱的。
	评测人员	只有配置的人员才能对该评测任务评分，且必须所有配置的人员都对所有case评分后才能生成评测报告。
	评测结果存储位置	模型评测结果的存储位置。支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或者“/”开头，以“/”结尾，且除前缀外不得出现“//”，例如obs://bucketname/path/或者/bucketname/path/。

参数填写完成后，单击“立即创建”，返回至“评测任务 > 人工评测”页面。
当状态为“待评测”时，可以单击操作列“在线评测”进入评测页面。
依据页面提示完成评测，全部数据评测完成后单击“提交”。
- 单击“存疑”或者“作废”进行用例的存疑或作废，如果取消存疑或作废，单击“取消存疑”或“取消作废”进行处理。
- 给用例的所有评估指标打分，单击“保存并下一个”，可保存分数并切换到下一个用例
- 单击“上一个”，可以回到上一个用户重新打分
- 单击备注下方“单击以添加备注”，可以进行新增备注。
- 评测页面，长按鼠标左键选中需要标记的文本内容，单击“标记”可以标记成重点内容。
  图1 人工评测
返回“评测平台 > 评测任务 > 人工评测”页面，单击操作列“评测报告”查看模型评测结果。
评测完成之后，进入人工评测列表页面，单击“人工复核”，进行复核评测，复核完成之后，单击“提交”，提交评估结果。

父主题： 模型评测

上一篇：模型评测功能说明

下一篇：查看模型评测报告

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问