查看多模态大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。 图1 我的空间

- 在左侧导航栏中选择“评测平台 > 评测任务”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。
其中,各评测指标说明详见多模态大模型评测指标说明。
多模态大模型评测指标说明
多模态大模型支持人工评测、自动评测,各指标说明如下。
模型类型 | 评测指标(人工评测) | 指标说明 |
|---|---|---|
多模态大模型 | 平均分数 | 模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。 |
goodcase占比 | 模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。 | |
badcase占比 | 模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。 | |
准确性及其他用户自定义的指标 | 由用户定义的指标。 |
模型类型 | 评测指标(自动评测-基于规则-使用预置评测集) | 指标说明 |
|---|---|---|
多模态大模型 | 综合能力 | 综合能力是计算所有数据集通过率的加权平均数。 |
模型类型 | 评测指标(自动评测-自定义评测集) | 指标说明 |
|---|---|---|
多模态大模型 | 准确率 | 正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。 |
BLEU-1 | 模型生成句子与实际句子在单字层面的匹配度,分数越高,表示模型效果越好。 | |
BLEU-2 | 模型生成句子与实际句子在中词组层面的匹配度,分数越高,表示模型效果越好。 | |
BLEU-4 | 模型生成结果和实际句子的加权平均精确率,分数越高,表示模型效果越好。 |
模型类型 | 评测指标(自动评测-基于大模型) | 指标说明 |
|---|---|---|
多模态大模型 | 裁判员模型打分 | 数据集中每个用例,裁判员模型给的评分值。 |
平均值 | 数据集中所有用例得分的平均值。 | |
中位数 | 数据集中所有用例得分的中位数 | |
标准差 | 数据集中所有用例得分的标准差 |

