文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古多模态图像问答大模型/ 评测图像问答大模型/ 创建多模态大模型评测任务

更新时间：2026-06-17 GMT+08:00

创建多模态大模型评测任务

创建多模态大模型评测任务前，请确保已完成创建多模态大模型评测数据集操作。

预训练的多模态大模型不支持评测。

创建多模态大模型人工评测任务

创建多模态大模型人工评测任务步骤如下：

登录ModelArts Studio平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”，单击界面右上角“创建人工评测任务”。

在“创建人工评测任务”页面，参考表1完成部署参数设置。

表1 多模态大模型人工评测任务参数说明
参数分类	参数名称	参数说明
评测对象	评测类型	选择“多模态大模型”。
评测对象	服务来源	支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。
评测配置	评测指标	由用户自定义评测指标并填写评测标准。
	评测数据集	待评测的数据集。
	是否开启盲测	开启盲测后，人工打分时将看不到模型名称，且多个模型的排列顺序是打乱的。
	评测人员	只可选择超级管理员、空间管理员、模型开发工程师。配置评测人员后，只有配置的人员才能对该评测任务评分，且必须所有配置的人员都对所有case评分后才能生成评测报告。
	评测结果存储位置	模型评测结果的存储位置。
基本信息	任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

参数设置完成后，单击“立即创建”创建评测任务。
在“评测任务 > 人工评测”页面，单击操作列“在线评测”，进入人工评测页面。如配置了评测人员，只有评测人员可以看到“在线评测“按钮。在人工评测页面对每条数据进行评估并打分，直到所有数据评估完成后，单击“提交”，提交评估结果。
- 单击“存疑”或者“作废”进行用例的存疑或作废，若取消存疑或作废，单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”，可以进行新增备注。
- 评测页面，长按鼠标左键选中需要标记的文本内容，单击“标记”可以标记成重点内容。
图2 多模态大模型人工评测

创建多模态大模型自动评测任务

登录ModelArts Studio平台，进入所需空间。
在左侧导航栏中选择“评测平台 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面选择“多模态大模型”，参考表2完成评测任务参数设置

表2 自动评测任务参数说明
参数分类	参数名称	参数说明
评测对象	评测类型	选择“多模态大模型”。
评测对象	服务来源	支持已部署服务。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。
评测配置（基于规则）	评测规则	选择“基于规则”。
	评测数据集	预置评测集：使用预置的专业数据集进行评测。自定义评测集：由用户指定评测指标（准确率、BLEU）并上传评测数据集进行评测。
	评测数据集	选择“单个评测集”时需要上传待评测数据集。
	评测结果存储位置	模型评测结果的存储位置。
评测配置（基于大模型）	评测类型	选择“多模态大模型”。
	评测规则	选择“基于大模型”。
	选择模式	评分模式：裁判模型将根据设置的评分标准对模型推理结果自动进行打分。
	评测数据集	需要用户在自己的obs桶中提前准备好数据。
	评测结果存储位置	模型评测结果的存储位置。
	选择模式	评分模式：裁判模型将根据设置的评分标准对模型推理结果自动进行打分。
	裁判模型	裁判员模型可以是已部署的服务，也可以是外部服务。外部服务的创建可以参考创建API服务
	打分规则	打分prompt有评分模式的prompt和对比模式的prompt。prompt中的${metric}，${max_score}，${score_desc}和${steps}的值可以通过右边对应的编辑栏设置，最终请求给裁判模型的prompt是用设置的值替换了变量的prompt。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

评测任务参数设置完成后单击“立即创建”。
返回“评测任务 > 自动评测”页面，可查看创建好的评测任务，此时任务状态显示为“初始化”，等到自动评测完成，状态显示为“已完成”时，可以单击操作列“评测报告”查看模型评测结果。
在“评测报告”页面可以查看详细的得分以及评测数据信息。

父主题： 评测图像问答大模型

上一篇：创建多模态大模型评测数据集

下一篇：查看多模态大模型评测报告

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问