创建数据集
在ModelArts进行数据管理时,首先您需要创建一个数据集,后续的操作,如标注数据、导入数据、数据集发布等,都是基于您创建的数据集。本章节按照非表格类型(图片、音频、文本、视频、自由格式)与表格类型的数据分别介绍如何创建数据集。
数据管理模块即将下线,对未使用过数据管理的用户不可见。
前提条件
- 数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据管理功能之前,请前往“全局配置”页面,使用委托完成访问授权。
- 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统,请选择OBS对象存储。
- ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。
图片、音频、文本、视频、自由格式
- 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入数据集管理页面。
图1 进入数据集管理页
每个帐户可创建的数据集个数有限,具体可参考“创建数据集”旁的页面提示。
- 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建不同类型的数据集。填写数据集基本信息。
图2 参数填写
- 名称:数据集的名称,可自定义您的数据集。
- 描述:该数据集的详情信息。
- 数据类型:根据实际需求,选择对应的数据类型。
- 数据来源:
- OBS导入数据
用户在OBS中有准备好的数据时,选择“OBS”,“导入路径”、“数据标注状态”、和数据“标注格式”(当数据标注状态选择“已标注”时,需要填写该参数)。针对不同类型的数据集,数据输入支持的标注格式不同,ModelArts目前支持的标注格式及其说明请参见数据接入简介
图3 从OBS中导入数据
- 从本地上传数据。
当用户没有在OBS存储数据,且AI Gallery中无法下载到所需要的数据时,ModelArts可支持本地上传。本地上传时选择“上传数据存储路径”和“数据标注状态”。单击“文件上传”,上传您本地的数据。并选择“标注格式”(当数据标注状态为“已标注”时,需要关注该参数)。针对不同类型的数据集,数据输入支持的标注格式不同,ModelArts目前支持的标注格式及其说明请参见 导入数据。
- OBS导入数据
- 更多参数填写请参见表1。
表1 数据集的详细参数 参数名称
说明
导入路径
选择需要导入数据的OBS路径,此位置会作为数据集的数据存储路径。
数据标注状态
选择数据的标注状态,分为“未标注”和“已标注”。
选择“已标注”时,需指定标注格式,并保证数据文件满足相应的格式规范,否则可能存在导入失败的情况。
仅图片(物体检测、图像分类、图像分割)、音频(声音分类)、文本(文本分类)类型的标注任务支持导入已标注数据。
数据集输出位置
选择数据集输出位置的OBS路径,此位置会存放输出的标注信息等文件。
说明:- 请确保您的OBS路径以字母、数字、下划线命名,不能包含特殊字符,例如:~'@#$%^&*{}[]:;+=<>/以及空格。
- “数据集输出位置”不能与“数据输入路径”为同一路径,且不能是“数据输入路径”的子目录。
- “数据集输出位置”建议选择一个空目录。
- “数据集输出位置”不支持OBS并行文件系统下的路径,请选择OBS对象桶。
- 参数填写完成,单击“提交”,即可完成数据集的创建。
表格
- 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入数据集管理页面。
图4 进入数据集管理页
每个帐户可创建的数据集个数有限,具体可参考“创建数据集”旁的页面提示。
- 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建表格类型的数据集。填写数据集基本信息。
图5 表格类型的参数
- 名称:数据集的名称,可自定义您的数据集。
- 描述:该数据集的详情信息。
- 数据类型:根据实际需求,选择对应的数据类型。
- 更多参数填写请参考表2。
表2 数据集的详细参数 参数名称
说明
数据源(“OBS”)
- “文件路径”:单击输入框右侧按钮,可打开当前帐号下的所有OBS桶,请选择需要导入的数据文件所在目录。
- “导入是否包含表头”:默认开启,表示导入文件包含表头。
- 若您的原始表格中已包含表头,开启时,会将导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。
- 若您的原始表格中没有表头,需手动关闭该开关,并更改Schema信息中的“列名”为attr_1、attr_2、……、attr_n,其中attr_n为最后一列,代表预测列。
OBS的详细功能说明,请参见《OBS用户指南》。
数据源(“DWS”)
- “集群名称”:系统自动将当前帐号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。
- “数据库名称”:根据选择的DWS集群,填写数据所在的数据库名称。
- “表名称”:根据选择的数据库,填写数据所在的表。
- “用户名”:输入DWS集群管理员用户的用户名。
- “密码”:输入DWS集群管理员用户的密码。
DWS的详细功能说明,请参见《DWS用户指南》。
说明:从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。
数据源(“DLI”)
- “队列名称”:系统自动将当前帐号下的DLI队列展现在列表中,您可以在下拉框中选择您所需的队列。
- “数据库名称”:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。
- “表名称”:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。
DLI的详细功能说明,请参见《DLI用户指南》。
数据源(“MRS”)
- “集群名称”:系统自动将当前帐号下的MRS集群展现在此列表中,但是流式集群不支持导入操作。请在下拉框中选择您所需的集群。
- “文件路径”:根据选择的集群,输入对应的文件路径,此文件路径为HDFS路径。
- “导入是否包含表头”:开启表示导入时将表头同时导入。
MRS的详细功能说明,请参见《MRS用户指南》。
本地上传
上传数据存储路径:选择对应的数据存储的OBS路径。
Schema信息
表格的列名和对应类型,需要跟导入数据的列数保持一致。请根据您导入的数据输入“列名”,同时选择此列的“类型”。其中支持的类型见表3。
单击“添加Schema信息”,即可增加一行列。创建数据集时必须指定schema,且一旦创建不支持修改。
从OBS数据源导入数据,会自动获取文件路径下csv文件的schema,如果多个csv文件的schema不一致会报错。
说明:从OBS选择数据后,Schema信息的列名会自动带出,且默认为表格中的第一行数据。为确保预测代码的正确性,请您手动更改Schema信息中的“列名”为attr_1、attr_2、……、attr_n,其中attr_n为最后一列,代表预测列。
数据集输出位置
选择表格数据存储路径(OBS路径),此位置会存放由数据源导入的数据。此位置不能和OBS数据源中的文件路径相同或为其子目录。
创建表格数据集后,在存储路径下会自动生成以下4个目录。
- annotation:版本发布目录,每次发布版本,会在此目录下生成和版本名称相同的子目录。
- data:数据存放目录,导入的数据会放在此目录。
- logs:日志存放目录。
- temp:临时工作目录。
表3 Schema数据类型说明 类型
描述
存储空间
范围
String
字符串
-
-
Short
有符号整数
2字节
-32768-32767
Int
有符号整数
4字节
-2147483648~2147483647
Long
有符号整数
8字节
-9223372036854775808~9223372036854775807
Double
双精度浮点型
8字节
-
Float
单精度浮点型
4字节
-
Byte
有符号整数
1字节
-128-127
Date
日期类型,描述了特定的年月日,格式:yyyy-MM-dd,例如2014-05-29
-
-
Timestamp
时间戳,表示日期和时间。格式:yyyy-MM-dd HH:mm:ss
-
-
Boolean
布尔类型
1字节
TRUE/FALSE
使用CSV文件时,需要注意以下两点:
- 当数据类型选择String时,默认会把双引号内的数据当作一条,所以同一行数据需要保证双引号闭环,否则会导致数据过大,无法显示。
- 当CSV文件的某一行的列数与定义的Schema不同,则会忽略当前行。
- 参数填写完成后,单击“提交”,即可完成数据集的创建。