AI开发平台ModelArtsAI开发平台ModelArts

更新时间:2021/09/18 GMT+08:00
分享

数据管理简介

在ModelArts中,您可以在“数据管理”页面,完成数据导入、数据标注等操作,为模型构建做好数据准备。ModelArts以数据集为数据基础,进行模型开发或训练等操作。

数据集的类型

当前ModelArts支持如下格式的数据集,包含文件型和表格型。

  • 文件型
    • 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割三种类型的标注。
    • 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。
    • 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。
    • 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。
    • 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。
      图1 自由格式数据集示例
  • 表格型

    表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。

规格限制

  • 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。
  • 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。
  • 单个manifest文件大小限制:5GB。
  • 文本文件单行大小限制:100KB。
  • 数据管理标注结果文件大小限制:100MB。

数据集管理流程及功能简介

图2 标注管理全流程
表1 功能介绍

功能

说明

创建数据集

创建一个新的数据集。

导入操作

将本地Manifest文件或者OBS的数据导入数据集中。

导出数据

支持将部分数据导出为新的数据集或者将数据导出至OBS。同时支持对任务历史进行查看和管理。

修改数据集

修改数据集的基本信息。如数据集名称、描述或标签等信息。

发布数据集

将标注后的数据集发布为新版本,以便应用于后续的模型构建。

管理数据集版本

通过数据集版本查看演进过程。

数据标注

支持对数据集创建不同类型的数据标注作业,对数据进行标注。

智能标注

支持对未标注的数据快速完成数据标注,为您节省70%以上的标注时间。

自动分组

您可以针对您选中的数据,执行自动分组,提升您的数据标注效率。

数据特征

对数据进行特征分析,帮助您了解数据。

一键模型上线

将已完成标注的数据,通过一键模型上线,一次性完成训练、导入模型、部署为在线服务的操作。

团队标注简介

支持多人共同完成同一个数据标注作业,且支持标注作业创建者统一管理标注任务。添加团队及其成员,参与到数据集的标注工作。

数据处理

为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。常见的数据处理类型有:数据校验、数据清洗、数据选择、数据增强。

删除数据集

删除数据集以释放资源。

不同类型数据集支持的功能列表

其中,不同类型的数据集,支持不同的功能,详细信息请参见表2

表2 不同类型数据集支持的功能

数据集类型

创建数据集

导入数据

导出数据

发布数据集

修改数据集

管理版本

数据标注

智能标注

团队标注

自动分组

数据特征

一键模型上线

图像

支持

支持

支持

支持

支持

支持

支持

支持

支持

支持

支持

支持

音频

支持

支持

-

支持

支持

支持

支持

-

支持

-

-

-

文本

支持

支持

-

支持

支持

支持

支持

-

支持

-

-

-

视频

支持

支持

-

支持

支持

支持

支持

-

-

-

-

-

自由格式

支持

支持

-

支持

支持

支持

-

-

-

-

-

-

表格

支持

支持

-

支持

支持

支持

-

-

-

-

-

-

分享:

    相关文档

    相关产品