查看多模态大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的基本信息及评测概览。
其中,各评测指标说明详见多模态大模型评测指标说明。
多模态大模型评测指标说明
多模态大模型支持人工评测、自动评测,各指标说明如下。
模型类型 |
评测指标(人工评测) |
指标说明 |
---|---|---|
多模态大模型 |
平均分数 |
模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。 |
goodcase占比 |
模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。 |
|
badcase占比 |
模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。 |
|
准确性及其他用户自定义的指标 |
由用户定义的指标。 |
模型类型 |
评测指标(自动评测-基于规则-使用预置评测集) |
指标说明 |
---|---|---|
多模态大模型 |
综合能力 |
综合能力是计算所有数据集通过率的加权平均数。 |
模型类型 |
评测指标(自动评测-自定义评测集) |
指标说明 |
---|---|---|
多模态大模型 |
准确率 |
正确预测(标注与预测完全匹配)的样本数与总样本数的比例。分数越高表示模型正确预测的样本比例越高,模型的效果越好。 |
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,分数越高,表示模型效果越好。 |
|
BLEU-2 |
模型生成句子与实际句子在中词组层面的匹配度,分数越高,表示模型效果越好。 |
|
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,分数越高,表示模型效果越好。 |
模型类型 |
评测指标(自动评测-基于大模型) |
指标说明 |
---|---|---|
多模态大模型 |
裁判员模型打分 |
数据集中每个用例,裁判员模型给的评分值。 |
平均值 |
数据集中所有用例得分的平均值。 |
|
中位数 |
数据集中所有用例得分的中位数 |
|
标准差 |
数据集中所有用例得分的标准差 |
|
分位 |
(win+tie)/(lose+tie) |
|
分位(剔除tie_bad) |
剔除tie_bad所得分位,(win+tie_good)/(lose+tie_good) |
|
分位(剔除tie_good) |
剔除tie_good所得分位,(win+tie_bad)/(lose+tie_bad) |