文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古多模态图像问答大模型/ 评测图像问答大模型/ 查看多模态大模型评测报告

更新时间：2026-06-17 GMT+08:00

查看多模态大模型评测报告

评测任务创建成功后，可以查看大模型评测任务报告，具体步骤如下：

登录ModelArts Studio平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”。
单击操作列“评测报告”，在“评测报告”页面，可以查看评测任务的基本信息及评测概览。
其中，各评测指标说明详见多模态大模型评测指标说明。

多模态大模型评测指标说明

多模态大模型支持人工评测、自动评测，各指标说明如下。

表1 多模态大模型评测指标说明
模型类型	评测指标（人工评测）	指标说明
多模态大模型	平均分数	模型生成句子与实际句子基于评估指标得到的评分后，统计平均得分。
	goodcase占比	模型生成句子与实际句子基于评估指标得到的评分后，统计得分为5分的占比。
	badcase占比	模型生成句子与实际句子基于评估指标得到的评分后，统计得分1分以下的占比。
	准确性及其他用户自定义的指标	由用户定义的指标。

表2 多模态大模型评测指标说明
模型类型	评测指标（自动评测-基于规则-使用预置评测集）	指标说明
多模态大模型	综合能力	综合能力是计算所有数据集通过率的加权平均数。

表3 多模态大模型自动评测指标说明
模型类型	评测指标（自动评测-自定义评测集）	指标说明
多模态大模型	准确率	正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高，模型的效果越好。
	BLEU-1	模型生成句子与实际句子在单字层面的匹配度，分数越高，表示模型效果越好。
	BLEU-2	模型生成句子与实际句子在中词组层面的匹配度，分数越高，表示模型效果越好。
	BLEU-4	模型生成结果和实际句子的加权平均精确率，分数越高，表示模型效果越好。

表4 多模态大模型评测指标说明
模型类型	评测指标（自动评测-基于大模型）	指标说明
多模态大模型	裁判员模型打分	数据集中每个用例，裁判员模型给的评分值。
	平均值	数据集中所有用例得分的平均值。
	中位数	数据集中所有用例得分的中位数
	标准差	数据集中所有用例得分的标准差

父主题： 评测图像问答大模型

上一篇：创建多模态大模型评测任务

下一篇：管理多模态大模型评测任务

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问