AI开发平台ModelArtsAI开发平台ModelArts

计算
弹性云服务器 ECS
裸金属服务器 BMS
云手机 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器 HECS
VR云渲游平台 CVR
特惠算力专区
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属企业存储服务
云存储网关 CSG
专属分布式存储服务 DSS
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘小站 IES
智能边缘平台 IEF
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
园区智能体 CampusGo
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
视频分析服务 VAS
语音交互服务 SIS
知识图谱 KG
人证核身服务 IVS
IoT物联网
设备接入 IoTDA
设备管理 IoTDM(联通用户专用)
全球SIM联接 GSL
IoT开发者服务
IoT数据分析
车联网服务 IoV
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
开发与运维
软件开发平台 DevCloud
项目管理 ProjectMan
代码托管 CodeHub
流水线 CloudPipeline
代码检查 CodeCheck
编译构建 CloudBuild
部署 CloudDeploy
云测 CloudTest
发布 CloudRelease
移动应用测试 MobileAPPTest
CloudIDE
Classroom
开源镜像站 Mirrors
应用魔方 AppCube
云性能测试服务 CPTS
应用管理与运维平台 ServiceStage
云应用引擎 CAE
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
资源管理服务 RMS
应用身份管理服务 OneAccess
区块链
区块链服务 BCS
可信跨链服务 TCS
智能协作
IdeaHub
开发者工具
SDK开发指南
API签名指南
DevStar
HCloud CLI
Terraform
Ansible
API问题定位指导
云生态
云市场
合作伙伴中心
华为云培训中心
其他
管理控制台
消息中心
产品价格详情
系统权限
我的凭证
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
应用编排服务 AOS
多云容器平台 MCP
基因容器 GCS
容器洞察引擎 CIE
云原生服务中心 OSC
容器批量计算 BCE
容器交付流水线 ContainerOps
应用服务网格 ASM
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB (for openGauss)
云数据库 GaussDB(for MySQL)
云数据库 GaussDB NoSQL
数据管理服务 DAS
数据库和应用迁移 UGO
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据湖治理中心 DGC
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
API网关 APIG
分布式缓存服务 DCS
分布式消息服务RocketMQ版
企业应用
域名注册服务 Domains
云解析服务 DNS
云速建站 CloudSite
网站备案
华为云WeLink
会议
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMAExchange
API全生命周期管理 ROMA API
安全与合规
安全技术与应用
DDoS防护 ADS
Web应用防火墙 WAF
云防火墙 CFW
应用信任中心 ATC
企业主机安全 HSS
容器安全服务 CGS
云堡垒机 CBH
数据库安全服务 DBSS
数据加密服务 DEW
数据安全中心 DSC
云证书管理服务 CCM
SSL证书管理 SCM
漏洞扫描服务 VSS
态势感知 SA
威胁检测服务 MTD
管理检测与响应 MDR
安全治理云图 Compass
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
专属云
专属计算集群 DCC
解决方案
高性能计算 HPC
SAP
游戏云
混合云灾备
华为工业云平台 IMC
价格
成本优化最佳实践
专属云商业逻辑
用户服务
帐号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
更新时间:2021-11-06 GMT+08:00
分享

数据特征

基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。

您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。

背景信息

  • 只有“物体检测”“图像分类”的数据集支持数据特征分析。
  • 只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。
  • 数据特征分析的数据范围,不同类型的数据集,选取范围不同:
    • “物体检测”的数据集中,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。有标注后,发布版本,显示已标注的图片的数据特征。
    • “图像分类”的数据集中,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。有标注后,发布版本,显示全部的图片的数据特征。
  • 数据集中的图片数量要达到一定量级才会具有意义,一般来说,需要有大约1000+的图片。
  • “图像分类”支持分析指标有:“分辨率”“图片高宽比”“图片亮度”“图片饱和度”“清晰度”“图像色彩的丰富程度”“物体检测”支持所有的分析指标。目前ModelArts支持的所有分析指标请参见支持分析指标及其说明

数据特征分析

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理>数据集”,进入“数据集”管理页面。
  2. 选择对应的数据集,单击操作列的“数据特征”,进入数据集概览页的数据特征页面。

    您也可以在单击数据集名称进入数据集概览页后,单击“数据特征”页签进入。

  3. 由于发布后的数据集不会默认启动数据特征分析,针对数据集的各个版本,需手动启动特征分析任务。在数据特征页签下,单击“特征分析”
    图1 选择特征分析
  4. 在弹出的对话框中配置需要进行特征分析的数据集版本,然后单击“确定”启动分析。
    “版本选择”,即选择当前数据集的已发布版本。
    图2 启动数据特征分析任务
  5. 数据特征分析任务启动后,需执行一段时间,根据数据量不同等待时间不同,请耐心等待。当您选择分析的版本出现在“版本选择”列表下,且可勾选时,即表示分析已完成。
    图3 可选择已执行特征分析的版本
  6. 查看数据特征分析结果。

    “版本选择”:在右侧下拉框中选择进行对比的版本。也可以只选择一个版本。

    “类型”:选择需要分析的类型。支持“all”“train”“eval”“inference”

    “数据特征指标”:在右侧下拉框中勾选需要展示的指标。详细指标说明请参见支持分析指标及其说明

    选择完成后,页面将自动呈现您选择对应版本及其指标数据,如图4所示,您可以根据呈现的图表了解数据分布情况,帮助您更好的处理您的数据。
    图4 数据特征分析
  7. 查看分析任务的历史记录。

    在数据特征分析后,您可以在“数据特征”页签下,单击右侧“任务历史”,可在弹出对话框中查看历史分析任务及其状态。

    图5 任务历史

支持分析指标及其说明

表1 分析指标列表

名称

说明

分析说明

分辨率

Resolution

图像分辨率。此处使用面积值作为统计值。

通过指标分析结果查看是否有偏移点。如果存在偏移点,可以对偏移点做resize操作或直接删除。

图片高宽比

Aspect Ratio

图像高宽比,即图片的高度/图片的宽度。

一般呈正态分布,一般用于比较训练集和真实场景数据集的差异。

图片亮度

Brightness

图片亮度,值越大代表观感上亮度越高。

一般呈正态分布,可根据分布中心判断数据集整体偏亮还是偏暗。可根据使用场景调整,比如使用场景是夜晚,图片整体应该偏暗。

图片饱和度

Saturation

图片的色彩饱和度,值越大表示图片整体色彩越容易分辨。

一般呈正态分布,一般用于比较训练集和真实场景数据集的差异。

清晰度

Clarity

图片清晰程度,使用拉普拉斯算子计算所得,值越大代表边缘越清晰,图片整体越清晰。

可根据使用场景判断清晰度是否满足需要。比如使用场景的数据采集来自高清摄像头,那么清晰度对应的需要高一些。可通过对数据集做锐化或模糊操作,添加噪声对清晰度做调整。

图像色彩的丰富程度

Colorfulness

横坐标:图像的色彩丰富程度,值越大代表色彩越丰富。

纵坐标:图片数量。

是观感上的色彩丰富程度,一般用于比较训练集和真实场景数据集的差异。

按单张图片中框的个数统计图片分布

Bounding Box Quantity

横坐标:单张图片中框的个数。

纵坐标:图片数量。

对模型而言一张图片的框个数越多越难检测,需要越多的这种数据用作训练。

按单张图片中框的面积标准差统计图片分布

Standard Deviation of Bounding Boxes Per Image

横坐标:单张图片中框的标准差。单张图片只有一个框时,标准差为0。标准差的值越大,表示图片中框大小不一程度越高。

纵坐标:图片数量。

对模型而言一张图中框如果比较多且大小不一,是比较难检测的,可以根据场景添加数据用作训练,或者实际使用没有这种场景可直接删除。

按高宽比统计框数量的分布

Aspect Ratio of Bounding Boxes

横坐标:目标框的高宽比。

纵坐标:框数量(统计所有图片中的框)。

一般呈泊松分布,但与使用场景强相关。多用于比较训练集和验证集的差异,如训练集都是长方形框的情况下,验证集如果是接近正方形的框会有比较大影响。

按面积占比统计框数量的分布

Area Ratio of Bounding Boxes

横坐标:目标框的面积占比,即目标框的面积占整个图片面积的比例,越大表示物体在图片中的占比越大。

纵坐标:框数量(统计所有图片中的框)。

主要判断模型中使用的anchor的分布,如果目标框普遍较大,anchor就可以选择较大。

按边缘化程度统计框数量的分布

Marginalization Value of Bounding Boxes

横坐标:边缘化程度,即目标框中心点距离图片中心点的距离占图片总距离的比值,值越大表示物体越靠近边缘。

纵坐标:框数量(统计所有图片中的框)。

一般呈正态分布。用于判断物体是否处于图片边缘,有一些只露出一部分的边缘物体,可根据需要添加数据集或不标注。

按堆叠度统计框数量的分布

Overlap Score of Bounding Boxes

横坐标:堆叠度,单个框被其他的框重叠的部分,取值范围为0~1,值越大表示被其他框覆盖的越多。

纵坐标:框数量(统计所有图片中的框)。

主要用于判断待检测物体的堆叠程度,堆叠物体一般对于检测难度较高,可根据实际使用需要添加数据集或不标注部分物体。

按亮度统计框数量的分布

Brightness of Bounding Boxes

横坐标:目标框的图片亮度,值越大表示越亮。

纵坐标:框数量(统计所有图片中的框)。

一般呈正态分布。主要用于判断待检测物体的亮度。在一些特殊场景中只有物体的部分亮度较暗,可以看是否满足要求。

按清晰度统计框数量的分布

Clarity of Bounding Boxes

横坐标:目标框的清晰度,值越大表示越清晰。

纵坐标:框数量(统计所有图片中的框)。

主要用于判断待检测物体是否存在模糊的情况。比如运动中的物体在采集中可能变得模糊,需要重新采集。

分享:

    相关文档

    相关产品

关闭导读