更新时间:2025-07-30 GMT+08:00
分享

查看多模态大模型评测报告

评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:

  1. 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”。
  3. 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。

    其中,各评测指标说明详见多模态大模型评测指标说明

多模态大模型评测指标说明

多模态大模型支持人工评测、自动评测,各指标说明如下。

表1 多模态大模型评测指标说明

模型类型

评测指标(人工评测)

指标说明

多模态大模型

平均分数

模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。

goodcase占比

模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。

badcase占比

模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。

准确性及其他用户自定义的指标

由用户定义的指标。

表2 多模态大模型评测指标说明

模型类型

评测指标(自动评测-基于规则-使用预置评测集)

指标说明

多模态大模型

综合能力

综合能力是计算所有数据集通过率的加权平均数。

表3 多模态大模型自动评测指标说明

模型类型

评测指标(自动评测-自定义评测集)

指标说明

多模态大模型

准确率

正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。

BLEU-1

模型生成句子与实际句子在单字层面的匹配度,分数越高,表示模型效果越好。

BLEU-2

模型生成句子与实际句子在中词组层面的匹配度,分数越高,表示模型效果越好。

BLEU-4

模型生成结果和实际句子的加权平均精确率,分数越高,表示模型效果越好。

表4 多模态大模型评测指标说明

模型类型

评测指标(自动评测-基于大模型)

指标说明

多模态大模型

裁判员模型打分

数据集中每个用例,裁判员模型给的评分值。

平均值

数据集中所有用例得分的平均值。

中位数

数据集中所有用例得分的中位数

标准差

数据集中所有用例得分的标准差

分位

(win+tie)/(lose+tie)

分位(剔除tie_bad)

剔除tie_bad所得分位,(win+tie_good)/(lose+tie_good)

分位(剔除tie_good)

剔除tie_good所得分位,(win+tie_bad)/(lose+tie_bad)

相关文档