文档首页 > > AI工程师用户指南> 管理模型> 评估和诊断模型> 评估指标说明

评估指标说明

分享
更新时间:2020/10/15 GMT+08:00

目前可以查看的评估指标分为图像分类、物体检测和图像语义分割三种场景。模型评估的指标总共包含7大模块:评估综述、精度评估、敏感度分析、计算性能分析、热力图、抽象特征分析和对抗性分析,其中后四种仅在图像分类场景下存在,其他的在三种场景下分别有自己对应的指标。

公共部分

表1 评估综述的指标说明

参数

说明

综合指标

综合的评估指标,图像分类为Accurancy,物体检测为MAP,图像语义分割为PA,关于指标详细说明参见各场景中的说明。

推理结果

展示推理的结果,包括推理结果和真实标签结果以及推理的置信度

综合评估

经过对推理结果、数据集的分析,得出的现象和针对现象改进的建议综述,只展示优先级较高的现象和建议。

图像分类

混淆矩阵,是一个每一列表示实际的标签统计,每一行表示预测的结果统计的矩阵。矩阵的对角线代表所有预测正确的结果。这里有几个概念,会用于计算各精度指标。以二分类举例,分别为预测正确的正例数TP,预测错误的正例数FN,预测正确的负例数TN和预测错误的负例数FP。

表2 图像分类中混淆矩阵对应的概念

参数

实际标签为真

实际标签为假

预测标签为真

TP(真阳性记录)

FP(假阳性记录)

预测标签为假

FN(假阴性记录)

TN(真阴性记录)

总样本数

P = TP + FN(正样本数)

N = FP + TN(负样本数)

表3 图像分类评估指标说明

指标名称

子参数

说明

精度评估

图像类别分布

不同类别图片数量的统计值。

混淆矩阵

见表二对混淆矩阵的说明

召回率

召回率,正确预测的正例数和实际正例总数的比值,这个值越大代表漏检的概率越小。计算公式R=TP/(TP+FN),即混淆矩阵中某一列预测正确的个数除以该列的样本和。

精确率

精确率,正确预测的正例数和预测正例总数的比值,这个值越大代表误检的概率越小。计算公式P=TP/(TP+FP),即混淆矩阵中某一行预测正确的个数除以该行的样本和。

F1值

精确率与召回率的调和均值。计算公式F1=2*P*R/(P+R),其中R为召回率,P为精确率。

ROC曲线

ROC 曲线用于绘制采用不同分类阈值时的 TPR (真正例率,纵坐标)与 FPR(假正例率,横坐标),ROC曲线越接近左上角,该分类器的性能越好。

敏感度分析

不同特征范围下的准确率

将图片根据特征值,如亮度、模糊度等划分为几个部分,分别测试几个部分的精度然后绘图。

特征分布

图片特征值的分布图。

F1值敏感度

展示不同类别数据在不同特征值范围内的F1值 ,用于判别模型对哪个特征范围内的图片效果较好。

计算性能分析

(默认不展示,仅预置算法resnet_v1_50支持)

算子耗时占比与参数数量占比

计算网络中各种参数如卷积操作、池化操作在网络中的占比、以及在前向过程中耗时的占比。

其他指标

包含GPU占用率、耗时、模型大小、参数总量和模型总计算量等基本模型信息。

热力图

(默认不展示,仅预置算法resnet_v1_50支持)

热力图结果展示

使用gradcam++算法绘制的热力图,高亮区域表示模型主要是根据图片中的该区域来判定图片的推理结果。

抽象特征分析

(默认不展示,仅预置算法resnet_v1_50支持)

特征分布

提取的图像分类基础网络全连接层前一层的卷积层输出,如在resnet50网络中,最终一张图片会输出一个1*2048的矩阵。将该输出降维到二维后绘制到二维的散点图上。

对抗样本评估

(默认不展示,仅预置算法resnet_v1_50支持)

PSNR

峰值信噪比,表示讯号最大可能功率和影响他的表示精度的破坏性噪声的功率的比值。

SSIM

结构相似性,用于衡量两张数位影像的相似程度,常用于比较无失真和失真影像的区别。

ACAC

对不正确类预测的平均置信度,也就是对抗样本中预测错误的类别的平均置信度。

ACTC

对正确类预测的平均置信度,也就是对抗样本中预测正确的类别的平均置信度。用来进一步评估攻击在多大程度上脱离了真实值。

MR

对抗样本被分类错误,或者分类为目标类的比例。

ALD

平均Lp失真,表示成功的对抗样本的平均标准化Lp。该值越小表示对抗样本越不易被察觉。

其他

与精度评估中的指标相似。

其中,“计算性能分析”仅支持TensorFlow图像分类的预置算法,“热力图”“抽象特征分析”“对抗样本评估”仅支持TensorFlow图像分类算法。针对这几项指标的展示,需更改评估代码生成所需的文件,详情参见模型评估代码示例中图像分类的部分。

物体检测

表4 物体检测评估指标说明

指标名称

子参数

说明

精度评估

图像类别分布

数据集中不同类别的图像框个数统计。

P-R曲线

根据每种分类的置信度对样例进行排序,逐个把样例加入正例进行预测,算出此时的精准率和召回率。使用这一系列的精准率和召回率绘制的曲线,即是一个类别的P-R曲线。

不同目标框交并比阈值下的mAP

计算不同目标框交并比阈值下的mAP值,并绘制曲线,反馈mAP值最高的阈值。其中交并比阈值是用于NMS时过滤可能预测为同一物体的重叠框的阈值。关于交并比示例请参见图1

不同置信度阈值下的F1值

计算不同置信度阈值下的平均F1值,并绘制曲线,反馈F1值最高的阈值。

误检分析

从预测结果角度统计错误检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种误检的错误类型,绘制成饼图,统计各类错误占错误检测的比例。详细错误类别请参见图2

漏检分析

从实际标签角度统计遗漏检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种漏检的结果类型,绘制成饼图,统计各类错误占漏检错误的比例。详细错误类别说明请参见图3

敏感度分析

不同特征范围下的准确率

与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。

特征分布

与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。

图1 交并比计算图示

从预测结果的角度出发,预测框与实际框的交并比大于0.5时,预测框与实际框类别不符,认为是类别误检;预测框与实际框的交并比大于0.1小于0.5,预测框与实际类别相符,认为是位置误检;预测框与实际框的交并比小于0.1,认为是背景误检。

图2 误检分析说明

从实际框的角度出发,实际框与预测框交并比大于0.5,实际框与预测框类别不符,认为是类别漏检;实际框与预测框的交并比大于0.1小于0.5,实际框与预测框类别相符,认为是位置漏检;实际框与所有预测类别相同的框交并比小于0.1,认为是背景漏检。

图3 漏检分析说明

图像语义分割

表5 图像语义分割评估指标说明

指标名称

子参数

说明

精度评估

图像类别分布

数据集中不同类别的像素个数统计。

交并比

简称IoU,计算每一类预测结果与标签的交并比,表达了预测集合与标签集合的交并比,对各类别的值求平均获得的就是平均交并比。交并比计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

Dice系数

取值范围为0-1,越接近1说明模型越好。Dice系数计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

混淆矩阵

与图像分类的混淆矩阵相同,只是针对的是每个像素点,而不是每张图片。

敏感度分析

敏感度分析

与图像分类一致,只是评估指标从F1值换成了IoU。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问