AI开发平台ModelArtsAI开发平台ModelArts

计算
弹性云服务器 ECS
裸金属服务器 BMS
云手机 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器 HECS
VR云渲游平台 CVR
特惠算力专区
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属企业存储服务
云存储网关 CSG
专属分布式存储服务 DSS
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘小站 IES
智能边缘平台 IEF
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
园区智能体 CampusGo
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
视频分析服务 VAS
语音交互服务 SIS
知识图谱 KG
人证核身服务 IVS
IoT物联网
设备接入 IoTDA
设备管理 IoTDM(联通用户专用)
全球SIM联接 GSL
IoT开发者服务
IoT数据分析
车联网服务 IoV
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
开发与运维
软件开发平台 DevCloud
项目管理 ProjectMan
代码托管 CodeHub
流水线 CloudPipeline
代码检查 CodeCheck
编译构建 CloudBuild
部署 CloudDeploy
云测 CloudTest
发布 CloudRelease
移动应用测试 MobileAPPTest
CloudIDE
Classroom
开源镜像站 Mirrors
应用魔方 AppCube
云性能测试服务 CPTS
应用管理与运维平台 ServiceStage
云应用引擎 CAE
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
资源管理服务 RMS
应用身份管理服务 OneAccess
区块链
区块链服务 BCS
可信跨链服务 TCS
智能协作
IdeaHub
开发者工具
SDK开发指南
API签名指南
DevStar
HCloud CLI
Terraform
Ansible
API问题定位指导
云生态
云市场
合作伙伴中心
华为云培训中心
其他
管理控制台
消息中心
产品价格详情
系统权限
我的凭证
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
应用编排服务 AOS
多云容器平台 MCP
基因容器 GCS
容器洞察引擎 CIE
云原生服务中心 OSC
容器批量计算 BCE
容器交付流水线 ContainerOps
应用服务网格 ASM
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB (for openGauss)
云数据库 GaussDB(for MySQL)
云数据库 GaussDB NoSQL
数据管理服务 DAS
数据库和应用迁移 UGO
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据湖治理中心 DGC
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
API网关 APIG
分布式缓存服务 DCS
分布式消息服务RocketMQ版
企业应用
域名注册服务 Domains
云解析服务 DNS
云速建站 CloudSite
网站备案
华为云WeLink
会议
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMAExchange
API全生命周期管理 ROMA API
安全与合规
安全技术与应用
DDoS防护 ADS
Web应用防火墙 WAF
云防火墙 CFW
应用信任中心 ATC
企业主机安全 HSS
容器安全服务 CGS
云堡垒机 CBH
数据库安全服务 DBSS
数据加密服务 DEW
数据安全中心 DSC
云证书管理服务 CCM
SSL证书管理 SCM
漏洞扫描服务 VSS
态势感知 SA
威胁检测服务 MTD
管理检测与响应 MDR
安全治理云图 Compass
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
专属云
专属计算集群 DCC
解决方案
高性能计算 HPC
SAP
游戏云
混合云灾备
华为工业云平台 IMC
价格
成本优化最佳实践
专属云商业逻辑
用户服务
帐号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
更新时间:2021-11-25 GMT+08:00
分享

评估指标说明

目前可以查看的评估指标分为图像分类、物体检测和图像语义分割三种场景。模型评估的指标总共包含7大模块:评估综述、精度评估、敏感度分析、计算性能分析、热力图、抽象特征分析和对抗性分析,其中后四种仅在图像分类场景下存在,其他的在三种场景下分别有自己对应的指标。

公共部分

表1 评估综述的指标说明

参数

说明

综合指标

综合的评估指标,图像分类为Accurancy,物体检测为MAP,图像语义分割为PA,关于指标详细说明参见各场景中的说明。

推理结果

展示推理的结果,包括推理结果和真实标签结果以及推理的置信度

综合评估

经过对推理结果、数据集的分析,得出的现象和针对现象改进的建议综述,只展示优先级较高的现象和建议。

图像分类

混淆矩阵,是一个每一列表示实际的标签统计,每一行表示预测的结果统计的矩阵。矩阵的对角线代表所有预测正确的结果。这里有几个概念,会用于计算各精度指标。以二分类举例,分别为预测正确的正例数TP,预测错误的正例数FN,预测正确的负例数TN和预测错误的负例数FP。

表2 图像分类中混淆矩阵对应的概念

参数

实际标签为真

实际标签为假

预测标签为真

TP(真阳性记录)

FP(假阳性记录)

预测标签为假

FN(假阴性记录)

TN(真阴性记录)

总样本数

P = TP + FN(正样本数)

N = FP + TN(负样本数)

表3 图像分类评估指标说明

指标名称

子参数

说明

精度评估

图像类别分布

不同类别图片数量的统计值。

混淆矩阵

对混淆矩阵的说明请参见表2

召回率

召回率,正确预测的正例数和实际正例总数的比值,这个值越大代表漏检的概率越小。计算公式R=TP/(TP+FN),即混淆矩阵中某一列预测正确的个数除以该列的样本和。

精确率

精确率,正确预测的正例数和预测正例总数的比值,这个值越大代表误检的概率越小。计算公式P=TP/(TP+FP),即混淆矩阵中某一行预测正确的个数除以该行的样本和。

F1值

精确率与召回率的调和均值。计算公式F1=2*P*R/(P+R),其中R为召回率,P为精确率。

ROC曲线

ROC 曲线用于绘制采用不同分类阈值时的 TPR (真正例率,纵坐标)与 FPR(假正例率,横坐标),ROC曲线越接近左上角,该分类器的性能越好。

敏感度分析

不同特征范围下的准确率

将图片根据特征值,如亮度、模糊度等划分为几个部分,分别测试几个部分的精度然后绘图。

特征分布

图片特征值的分布图。

F1值敏感度

展示不同类别数据在不同特征值范围内的F1值 ,用于判别模型对哪个特征范围内的图片效果较好。

计算性能分析

(默认不展示,仅预置算法resnet_v1_50支持)

算子耗时占比与参数数量占比

计算网络中各种参数如卷积操作、池化操作在网络中的占比、以及在前向过程中耗时的占比。

其他指标

包含GPU占用率、耗时、模型大小、参数总量和模型总计算量等基本模型信息。

热力图

(默认不展示,仅预置算法resnet_v1_50支持)

热力图结果展示

使用gradcam++算法绘制的热力图,高亮区域表示模型主要是根据图片中的该区域来判定图片的推理结果。

抽象特征分析

(默认不展示,仅预置算法resnet_v1_50支持)

特征分布

提取的图像分类基础网络全连接层前一层的卷积层输出,如在resnet50网络中,最终一张图片会输出一个1*2048的矩阵。将该输出降维到二维后绘制到二维的散点图上。

对抗样本评估

(默认不展示,仅预置算法resnet_v1_50支持)

PSNR

峰值信噪比,表示讯号最大可能功率和影响他的表示精度的破坏性噪声的功率的比值。

SSIM

结构相似性,用于衡量两张数位影像的相似程度,常用于比较无失真和失真影像的区别。

ACAC

对不正确类预测的平均置信度,也就是对抗样本中预测错误的类别的平均置信度。

ACTC

对正确类预测的平均置信度,也就是对抗样本中预测正确的类别的平均置信度。用来进一步评估攻击在多大程度上脱离了真实值。

MR

对抗样本被分类错误,或者分类为目标类的比例。

ALD

平均Lp失真,表示成功的对抗样本的平均标准化Lp。该值越小表示对抗样本越不易被察觉。

其他

与精度评估中的指标相似。

其中,“计算性能分析”仅支持TensorFlow图像分类的预置算法,“热力图”“抽象特征分析”“对抗样本评估”仅支持TensorFlow图像分类算法。针对这几项指标的展示,需更改评估代码生成所需的文件,详情参见模型评估代码示例中图像分类的部分。

物体检测

表4 物体检测评估指标说明

指标名称

子参数

说明

精度评估

图像类别分布

数据集中不同类别的图像框个数统计。

P-R曲线

根据每种分类的置信度对样例进行排序,逐个把样例加入正例进行预测,算出此时的精准率和召回率。使用这一系列的精准率和召回率绘制的曲线,即是一个类别的P-R曲线。

不同目标框交并比阈值下的mAP

计算不同目标框交并比阈值下的mAP值,并绘制曲线,反馈mAP值最高的阈值。其中交并比阈值是用于NMS时过滤可能预测为同一物体的重叠框的阈值。关于交并比示例请参见图1

不同置信度阈值下的F1值

计算不同置信度阈值下的平均F1值,并绘制曲线,反馈F1值最高的阈值。

误检分析

从预测结果角度统计错误检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种误检的错误类型,绘制成饼图,统计各类错误占错误检测的比例。详细错误类别请参见图2

漏检分析

从实际标签角度统计遗漏检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种漏检的结果类型,绘制成饼图,统计各类错误占漏检错误的比例。详细错误类别说明请参见图3

敏感度分析

不同特征范围下的准确率

与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。

特征分布

与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。

图1 交并比计算图示

从预测结果的角度出发,预测框与实际框的交并比大于0.5时,预测框与实际框类别不符,认为是类别误检;预测框与实际框的交并比大于0.1小于0.5,预测框与实际类别相符,认为是位置误检;预测框与实际框的交并比小于0.1,认为是背景误检。

图2 误检分析说明

从实际框的角度出发,实际框与预测框交并比大于0.5,实际框与预测框类别不符,认为是类别漏检;实际框与预测框的交并比大于0.1小于0.5,实际框与预测框类别相符,认为是位置漏检;实际框与所有预测类别相同的框交并比小于0.1,认为是背景漏检。

图3 漏检分析说明

图像语义分割

表5 图像语义分割评估指标说明

指标名称

子参数

说明

精度评估

图像类别分布

数据集中不同类别的像素个数统计。

交并比

简称IoU,计算每一类预测结果与标签的交并比,表达了预测集合与标签集合的交并比,对各类别的值求平均获得的就是平均交并比。交并比计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

Dice系数

取值范围为0-1,越接近1说明模型越好。Dice系数计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

混淆矩阵

与图像分类的混淆矩阵相同,只是针对的是每个像素点,而不是每张图片。

敏感度分析

敏感度分析

与图像分类一致,只是评估指标从F1值换成了IoU。

分享:

    相关文档

    相关产品

关闭导读