更新时间:2022-06-17 GMT+08:00
分享

创建数据集

在ModelArts进行数据管理时,首先您需要创建一个数据集,后续的操作,如标注数据、导入数据、数据集发布等,都是基于您创建的数据集。

当前ModelArts同时存在新版数据集和旧版数据集。

新版数据集在旧版的基础上将创建数据集和创建标注任务进行了解耦,创建数据集和创建标注作业分别是独立的任务,使用更灵活。

本文档主要介绍新版数据集创建流程。旧版数据集创建,请参考创建数据集(旧版)

前提条件

  • 数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据管理功能之前,请前往“全局配置”页面,使用委托完成访问授权。
  • 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统,请选择OBS对象存储。

操作步骤

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,单击“前往新版”,进入新版“数据集”管理页面。
    图1 进入新版数据集
  2. 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建不同类型的数据集。
    1. 填写数据集基本信息,数据集的“名称”“描述”“数据格式”“数据类型”“数据集输出位置”。ModelArts目前支持的类型及其说明请参见数据集的类型
      图2 数据集基本信息
    2. 基本信息填写完成后,单击“下一步”,填写数据集的数据输入信息。
      1. OBS导入数据

        用户在OBS中有准备好的数据时,选择“OBS”,“导入路径”、“数据标注状态”、和数据“标注格式”。针对不同类型的数据集,数据输入支持的标注格式不同,ModelArts目前支持的标注格式及其说明请参见导入数据

        图3 选择OBS中的数据格式和数据类型
      2. 从AI Gallery下载数据

        当用户没有准备数据时,可以从AI Gallery上下载数据创建数据集。选择“AI Gallery”并选中列表中的一个资产,在“下载至OBS桶位置(数据集输入位置)”选择一个空目录用来存储下载的数据集。

        图4 AI Gallery下载数据
    3. 参数填写无误后,单击页面右下角“提交”

      数据集创建完成后,系统自动跳转至数据集管理页面,针对创建好的数据集,您可以执行数据导入、发布、修改、删除、数据处理、数据标注、数据特征、版本管理和导出操作。

      不同类型数据集,支持的操作请参见不同类型数据集支持的功能

文件型(图片、音频、文本、视频、自由格式)

表1 数据集的详细参数

参数名称

说明

数据集输出位置

选择数据集输出位置的OBS路径,此位置会存放输出的标注信息等文件。

说明:

“数据集输出位置”不能与“数据输入路径”为同一路径,且不能是“数据输入路径”的子目录。

“数据集输出位置”建议选择一个空目录。

“数据集输出位置”不支持OBS并行文件系统下的路径,请选择OBS对象桶。

导入路径

选择需要导入数据的OBS路径,此位置会作为数据集的数据存储路径。

说明:

“导入路径”不支持OBS并行文件系统下的路径,请选择OBS对象桶。

创建数据集时,此OBS路径下的数据会导入数据集,后续若直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分数据不可用。如果需要在数据集中修改数据,建议使用同步新数据或4章节导入数据功能。

超出数据集的样本和标签配额,会导致数据无法正常导入。

数据标注状态

选择数据的标注状态,分为“未标注”和“已标注”。

选择“已标注”时,需指定标注格式,并保证数据文件满足相应的格式规范,否则可能存在导入失败的情况。

仅图片(物体检测、图像分类、图像分割)、音频(声音分类)、文本(文本分类)类型的标注任务支持导入已标注数据。

表格型(表格)

图5 表格类型的参数

使用CSV文件时,需要注意以下两点:

  • 当数据类型选择String时,默认会把双引号内的数据当作一条,所以同一行数据需要保证双引号闭环,否则会导致数据过大,无法显示。
  • 当CSV文件的某一行的列数与定义的Schema不同,则会忽略当前行。
表2 数据集的详细参数

参数名称

说明

数据集输出位置

选择表格数据存储路径(OBS路径),此位置会存放由数据源导入的数据。此位置不能和OBS数据源中的文件路径相同或为其子目录。

创建表格数据集后,在存储路径下会自动生成以下4个目录。

  • annotation:版本发布目录,每次发布版本,会在此目录下生成和版本名称相同的子目录。
  • data:数据存放目录,导入的数据会放在此目录。
  • logs:日志存放目录。
  • temp:临时工作目录。

数据源(“OBS”

  • “文件路径”:单击输入框右侧按钮,可打开当前帐号下的所有OBS桶,请选择需要导入的数据文件所在目录。
  • “导入是否包含表头”:开启表示导入文件包含表头,此时会将导入文件的第一行作为列名,否则会添加默认列名,自动填写在Schema信息中。

OBS的详细功能说明,请参见《OBS用户指南》。

数据源(“DWS”

  • “集群名称”:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。
  • “数据库名称”:根据选择的DWS集群,填写数据所在的数据库名称。
  • “表名称”:根据选择的数据库,填写数据所在的表。
  • “用户名”:输入DWS集群管理员用户的用户名。
  • “密码”:输入DWS集群管理员用户的密码。

DWS的详细功能说明,请参见《DWS用户指南》。

说明:

从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。

数据源(“DLI”

  • “队列名称”:系统自动将当前帐号下的DLI队列展现在列表中,您可以在下拉框中选择您所需的队列。
  • “数据库名称”:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。
  • “表名称”:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。

DLI的详细功能说明,请参见《DLI用户指南》。

数据源(“MRS”

  • “集群名称”:系统自动将当前帐号下的MRS集群展现在此列表中,但是流式集群不支持导入操作。请在下拉框中选择您所需的集群。
  • “文件路径”:根据选择的集群,输入对应的文件路径,此文件路径为HDFS路径。
  • “导入是否包含表头”:开启表示导入时将表头同时导入。

MRS的详细功能说明,请参见《MRS用户指南》。

Schema信息

表格的列名和对应类型,需要跟导入数据的列数保持一致。请根据您导入的数据输入“列名”,同时选择此列的“类型”。其中支持的类型见表3

单击“添加Schema信息”,即可增加一行列。创建数据集时必须指定schema,且一旦创建不支持修改。

从OBS数据源导入数据,会自动获取文件路径下csv文件的schema,如果多个csv文件的schema不一致会报错。

表3 Schema数据类型说明

类型

描述

存储空间

范围

String

字符串

-

-

Short

有符号整数

2字节

-32768-32767

Int

有符号整数

4字节

-2147483648~2147483647

Long

有符号整数

8字节

-9223372036854775808~9223372036854775807

Double

双精度浮点型

8字节

-

Float

单精度浮点型

4字节

-

Byte

有符号整数

1字节

-128-127

Date

日期类型,描述了特定的年月日,格式:yyyy-MM-dd,例如2014-05-29

-

-

Timestamp

时间戳,表示日期和时间。格式:yyyy-MM-dd HH:mm:ss

-

-

Boolean

布尔类型

1字节

TRUE/FALSE

分享:

    相关文档

    相关产品

close