更新时间:2025-09-16 GMT+08:00
分享

查看CV大模型评测报告

评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”。
  3. 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的报告和详情。

    其中,各评测指标说明详见CV大模型评测指标说明

  4. 导出评测报告。
    1. 在“评测报告 > 服务结果分析”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
    2. 单击右侧“导出记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。

CV大模型评测指标说明

CV大模型支持基于规则的自动评测方式,其评测指标见表1

表1 CV大模型评测指标说明

模型类型

模型场景

评测指标(自动评测)

指标说明

CV大模型

物体检测

mAP

平均精度值。

精确率

预测为正的样本中,实际为正的比率。

召回率

实际为正的样本,预测为正的比率。

F1分数

精准率和召回率的调和平均数,数值越高,表明模型性能越好。

预测正确

真正例和真负例的和。

图像分类-单分类

准确率(Top1)

模型预测的前1个最高概率类别中包含真实标签的样本比例。

准确率(Top5)

模型预测的前5个最高概率类别中包含真实标签的样本比例。

预测正确

得分最高的类别和标签类别相等的样本数。

图像分类-多分类

mAP

平均精度值。

精确率

预测为正的样本中,实际为正的比率。

召回率

实际为正的样本,预测为正的比率。

F1分数

精准率和召回率的调和平均数,数值越高,表明模型性能越好。

预测正确

预测得分大于置信度阈值的类别和对应标签包含的类别完全相等的样本数。

语义分割

MIoU

预测区域与真实区域的交集面积与并集面积的比值。

精确率

预测为正的样本中,实际为正的比率。

召回率

实际为正的样本,预测为正的比率。

F1分数

精准率和召回率的调和平均数,数值越高,表明模型性能越好。

相关文档