AI开发平台ModelArtsAI开发平台ModelArts

计算
弹性云服务器 ECS
云耀云服务器 HECS
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机 CPH
VR云渲游平台 CVR
特惠算力专区
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
内容分发网络 CDN
存储容灾服务 SDRS
弹性文件服务 SFS
云服务器备份 CSBS
云硬盘备份 VBS
数据快递服务 DES
专属企业存储服务
智能边缘
智能边缘云 IEC
EI 企业智能
EI安视服务
AI开发平台ModelArts
数据湖治理中心 DGC
数据仓库服务 GaussDB(DWS)
企业级AI应用开发专业套件 ModelArts Pro
数据湖探索 DLI
华为HiLens
云搜索服务 CSS
数据接入服务 DIS
表格存储服务 CloudTable
数据湖工厂 DLF
图引擎服务 GES
推荐系统 RES
文字识别 OCR
内容审核 Moderation
图像识别 Image
图像搜索 ImageSearch
人脸识别服务 FRS
对话机器人服务 CBS
视频分析服务 VAS
数据可视化 DLV
视频接入服务 VIS
自然语言处理 NLP
语音交互服务 SIS
知识图谱 KG
医疗智能体 EIHealth
可信智能计算服务 TICS
园区智能体 CampusGo
实时流计算服务 CS
人证核身服务 IVS
IoT物联网
设备接入 IoTDA
IoT物联网
全球SIM联接 GSL
设备发放 IoTDP
IoT开发者服务
IoT边缘 IoTEdge
IoT数据分析
路网数字化服务 DRIS
开发与运维
项目管理 ProjectMan
代码托管 CodeHub
流水线 CloudPipeline
代码检查 CodeCheck
编译构建 CloudBuild
部署 CloudDeploy
云测 CloudTest
发布 CloudRelease
移动应用测试 MobileAPPTest
CloudIDE
Classroom
软件开发平台 DevCloud
开源镜像站 Mirrors
视频
媒体处理 MPC
视频点播 VOD
视频直播 Live
实时音视频 SparkRTC
管理与部署
统一身份认证服务 IAM
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云审计服务 CTS
云日志服务 LTS
标签管理服务 TMS
资源管理服务 RMS
应用身份管理服务 OneAccess
专属云
专属计算集群 DCC
专属分布式存储服务 DSS
域名与网站
域名注册服务 Domains
云速建站 CloudSite
企业协同
华为云WeLink
会议
ISDP
解决方案
全栈专属服务
高性能计算 HPC
SAP
游戏云
混合云灾备
快视频
华为工业云平台 IMC
价格
价格原则
成本优化最佳实践
昇腾
昇腾MindX SDK (20.3)
其他
管理控制台
消息中心
产品价格详情
系统权限
我的凭证
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
应用编排服务 AOS
容器交付流水线 ContainerOps
应用服务网格 ASM
多云容器平台 MCP
基因容器 GCS
容器洞察引擎 CIE
容器批量计算 BCE
云原生服务中心 OSC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
数据库
云数据库 RDS
文档数据库服务 DDS
分布式数据库中间件 DDM
数据复制服务 DRS
数据管理服务 DAS
云数据库 GaussDB(for MySQL)
云数据库 GaussDB NoSQL
云数据库 GaussDB (for openGauss)
数据库和应用迁移 UGO
大数据
MapReduce服务 MRS
应用中间件
应用管理与运维平台 ServiceStage
分布式缓存服务 DCS
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
消息通知服务 SMN
微服务引擎 CSE
云性能测试服务 CPTS
区块链服务 BCS
API网关 APIG
应用魔方 AppCube
分布式消息服务RocketMQ版
多云高可用服务 MAS
可信跨链数据链接服务 TCDAS
企业应用
云桌面 Workspace
云解析服务 DNS
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMAExchange
ROMA API
鸿源云道
华为乾坤
安全与合规
Web应用防火墙 WAF
漏洞扫描服务 VSS
企业主机安全 HSS
容器安全服务 CGS
数据加密服务 DEW
数据库安全服务 DBSS
态势感知 SA
云堡垒机 CBH
SSL证书管理 SCM
云证书管理服务 CCM
管理检测与响应 MDR
数据安全中心 DSC
威胁检测服务 MTD
DDoS防护 ADS
云防火墙 CFW
应用信任中心 ATC
安全技术与应用
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
智能协作
IdeaHub
企业网络
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
废弃-华为乾坤安全云服务
云通信
语音通话 VoiceCall
消息&短信 MSGSMS
隐私保护通话 PrivateNumber
开发者工具
SDK开发指南
API签名指南
DevStar
HCloud CLI
Terraform
Ansible
云生态
云市场
鲲鹏
昇腾
合作伙伴中心
华为云培训中心
用户服务
帐号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
网站备案
支持计划
专业服务
合作伙伴支持计划
更新时间:2021/10/14 GMT+08:00
分享

导入操作简介

前提条件

  • 已存在创建完成的数据集。
  • 至少已创建了一个OBS桶,用于数据存储,确保OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。

数据集中的数据导入入口

数据集中的数据导入有5个入口。

  1. 创建数据集时直接从设置的数据导入路径中自动同步数据。
    图1 创建数据集时导入数据
  2. 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。
    图2 在数据集列表页导入数据
  3. 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入”,导入数据。
    图3 在数据集详情页中导入数据
  4. 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“同步数据源”,同步OBS中的数据。
    图4 在数据集详情页中同步数据源
  5. 在数据标注的标注作业详情中添加数据。
    图5 标注作业详情中添加数据

文件型数据来源

文件型数据集的导入支持两种数据来源:“OBS”“本地上传”。导入后,导入目录下的数据会拷贝至数据集的数据源路径下。

  • OBS:需要将导入的数据或Manifest文件提前存储至OBS目录中。
  • 本地上传:将本地数据直接通过Internet上传至OBS指定目录后,再导入数据集。

文件型数据导入方式

导入方式分为“目录”“manifest”两种。

  • 目录:导入路径选择OBS目录,读取OBS目录下的数据并导入数据集。
  • Manifest:按Manifest文件读取OBS上的数据并导入,需要满足Manifest的文件规范,同时每个Manifest文件仅包含一种标注类型。Manifest文件定义了标注对象和标注内容的对应关系。文件规范请参见导入Manifest文件的规范说明。当前“自由格式”的数据集不支持Manifest导入。

文件型数据标注状态

数据标注状态分为“未标注”“已标注”

  • 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
  • 已标注:同时导入标注对象和标注内容,当前“自由格式”的数据集不支持导入标注内容。

    为了确保能够正确读取标注内容,要求用户严格按照规范存放数据:

    导入方式选择目录时,需要用户选择“标注格式”,并按照标注格式的要求存放数据,详细规范请参见标注格式章节。

    导入方式选择manifest时,需要满足manifest文件的规范。

    数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。

文件型数据标注格式

标注格式指标注对象和标注内容按照特定的格式存放,用于已标注数据的目录导入。不同类型的数据集支持不同的标注格式,用户需要根据数据集类型和标注类型,选择对应的标注格式。当前只有“图像分类”“物体检测”“图像分割”“文本分类”“声音分类”标注类型支持按标注格式导入。

表1 不同类型数据集支持标注格式

数据集类型

标注类型

标注格式

图片

图像分类

1)ModelArts image classification 1.0

2)ModelArts imageNet 1.0

格式规范:图像分类

物体检测

1) ModelArts PASCAL VOC 1.0

2) YOLO

格式规范:物体检测

图像分割

ModelArts image segmentation 1.0

格式规范:图像分割

音频

声音分类

支持的标注格式:

ModelArts audio classfication dir 1.0

格式规范:声音分类

文本

文本分类

1)ModelArts text classfication 1.0

2)ModelArts text classfication combine 1.0

格式规范:文本分类

文件型数据从OBS目录导入操作

不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 >数据集”,进入“数据集”管理页面。
  2. 在数据集所在行,单击操作列的“导入”

    或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”

  3. “导入”对话框中,参考如下说明填写参数,然后单击“确定”
    • “数据来源”“OBS”
    • “导入方式”“目录”
    • “导入路径”:数据存储的OBS路径。
    • “数据标注状态”:已标注。
    • “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。

      如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加,也可以单击标签右侧的删除图标删除标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。

    图6 导入数据集-OBS

    导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。

文件型数据从Manifest导入操作

不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图片数据集为例。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理>数据集”,进入“数据集”管理页面。
  2. 在数据集所在行,单击操作列的“导入”

    或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”

  3. “导入”对话框中,参考如下说明填写参数,然后单击“确定”
    • “数据来源”“OBS”
    • “导入方式”“manifest”
    • “Manifest文件”:存储Manifest文件的OBS路径。
    • “数据标注状态”:已标注。
    • “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。

      “按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加,也可以单击标签右侧的删除图标删除标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。

      “只导入难例”:难例指manifest文件中的“hard”属性,勾选此参数,表示此导入操作,只导入manifest文件“hard”属性中数据信息。

    图7 导入mainfest文件

    导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。

表格数据集的导入

表格支持从5种数据源导入数据,分别为对象存储服务(OBS)、数据仓库服务(DWS)、数据湖探索服务(DLI)、MapReduce服务(MRS)和本地上传。

导入说明:

  1. 导入成功的前提是,数据源的schema需要与创建数据集指定的schema保持一致。其中schema指表格的列名和类型,创建数据集时一旦指定,不支持修改。
  2. 数据格式不合法,会将数据置为null,详见表3
  3. 从OBS或者MRS导入csv文件,不会校验数据类型,但是列数需要跟数据集的schema保持一致。

下面分别介绍如下几种数据源导入:

  • 从OBS导入数据

    支持从OBS导入csv文件,需要选择文件所在目录,其中csv文件的列数需要跟数据集schema一致。支持自动获取csv文件的schema。

    ├─dataset-import-example 
    │      table_import_1.csv 
    │      table_import_2.csv
    │      table_import_3.csv
    │      table_import_4.csv

    针对“表格”类型的数据集,导入时,支持从OBS、DWS、DLI、MRS和本地上传类型的数据源。其导入时的设置和数据要求,与创建数据集相同,详细参数可参见创建数据集时表格型(表格)类型的参数说明。

  • 从DWS导入数据

    从DWS导入数据,用户需要选择对应的DWS集群,并输入需要对应的数据库名、表名以及用户名和密码。所导入表的schema(列名和类型)需要跟数据集相同。

  • 从DLI导入数据

    从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的default队列只用作体验,不同帐号间可能会出现抢占的情况,需进行资源排队,不能保证每次都可以得到资源执行相关操作。DLI支持schema映射的功能,即导入的表的schema的字段名称可以不和数据集相同,但类型要保持一致。

  • 从MRS导入数据

    只支持从分析集群导入数据,流式集群不支持导入。从MRS服务中导入存储在HDFS上的csv格式的数据,首先需要选择已有的MRS集群,并从HDFS文件列表选择文件名称或所在目录,导入文件的列数需与数据集schema一致。

本地上传

文件型和表格型数据均支持从本地上传。从本地上传的数据存储在OBS目录中,请先提前创建OBS桶。

从本地上传的数据单次最多支持100个文件同时上传,总大小不超过5GB。

图8 从本地上传数据
分享:

    相关文档

    相关产品