创建数据集(旧版)
在ModelArts进行数据管理时,首先您需要创建一个数据集,后续的操作,如标注数据、导入数据、数据集发布等,都是基于您创建的数据集。
当前ModelArts同时存在新版数据集和旧版数据集。
新版数据集在旧版的基础上将创建数据集和创建标注任务进行了解耦,创建数据集和创建标注作业分别是独立的任务,使用更灵活。
旧版数据集需要在创建数据集时创建标注任务,不支持分开单独创建数据集和数据标注任务。
本文档主要介绍旧版数据集创建流程。
前提条件
- 数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据管理功能之前,请前往“全局配置”页面,使用委托完成访问授权。
- 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。
- 需要使用的数据已上传至OBS。
操作步骤
- 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入“数据集”管理页面。
- 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建不同类型的数据集。
- 填写数据集基本信息,数据集的“名称”和“描述”。
图1 数据集基本信息
- 根据您的需求,选择“标注场景”和“标注类型”,ModelArts目前支持的类型及其说明请参见数据集的类型。
图2 选择标注场景和标注类型
- 针对不同类型的数据集,需填写参数不同,请参考如下类型数据集对应的参数介绍。
- 参数填写无误后,单击页面右下角“创建”。
数据集创建完成后,系统自动跳转至数据集管理页面,针对创建好的数据集,您可以执行标注数据、发布、版本管理、修改、导入和删除等操作。不同类型数据集,支持的操作请参见不同类型数据集支持的功能列表
- 填写数据集基本信息,数据集的“名称”和“描述”。
图片(图像分类、物体检测、图像分割)
参数名称 |
说明 |
---|---|
数据集输入位置 |
选择数据集输入位置的OBS路径。
说明:
创建数据集时,此OBS路径下的数据会导入数据集,后续若直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分数据不可用。 |
数据集输出位置 |
选择数据集输出位置的OBS路径。
说明:
“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。 |
添加标签集 |
|
启用团队标注 |
选择是否启用团队标注。图像分割暂不支持团队标注,当选择图像分割类型时,界面不显示此参数。 启用团队标注功能,需填写对应的团队标注任务“名称”、“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。 |
音频(声音分类、语音内容、语音分割)
参数名称 |
说明 |
---|---|
数据集输入位置 |
选择数据集输入位置的OBS路径。 |
数据集输出位置 |
选择数据集输出位置的OBS路径。
说明:
“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。 |
添加标签集(声音分类) |
仅“声音分类”类型的数据集需设置标签。
|
标签管理(语音分割) |
仅“语音分割”类型的数据集,支持多种标签。
|
启用语音内容标注(语音分割) |
仅“语音分割”类型数据集支持设置,默认关闭。如果启用此功能,支持针对语音内容进行标注。 |
启用团队标注 |
仅“语音分割”类型支持团队标注,因此选择创建语音分割类型时,支持设置是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“名称”、“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。 |
文本(文本分类、命名实体、文本三元组)
参数名称 |
说明 |
---|---|
数据集输入位置 |
选择数据集输入位置的OBS路径。
说明:
文本分类数据只能在执行导入数据操作时识别已标注数据,在此处创建数据集时不能识别已标注数据,建议此处的OBS设置为一个空目录,创建完数据集后再导入已标注数据,导入操作的数据格式要求请参见从OBS目录导入的规范说明。 |
数据集输出位置 |
选择数据集输出位置的OBS路径。
说明:
“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。 |
添加标签集(文本分类、命名实体) |
|
添加标签集(文本三元组) |
针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。
|
启用团队标注 |
选择是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“名称”、“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。 |
表格
使用CSV文件时,需要注意以下两点:
- 当数据类型选择String时,默认会把双引号内的数据当作一条,所以同一行数据需要保证双引号闭环,否则会导致数据过大,无法显示。
- 当CSV文件的某一行的列数与定义的Schema不同,则会忽略当前行。
参数名称 |
说明 |
---|---|
存储路径 |
选择表格数据存储路径(OBS路径),此位置会存放由数据源导入的数据。此位置不能和OBS数据源中的文件路径相同或为其子目录。 创建表格数据集后,在存储路径下会自动生成以下4个目录。
|
是否导入 |
如果您在其他云服务上存储了表格数据,可启用此功能,现支持将存储在对象存储服务(OBS)、数据湖探索(DLI)或MapReduce服务(MRS)的数据导入。 |
数据源(“OBS”) |
OBS的详细功能说明,请参见《OBS用户指南》。 |
数据源(“DWS”) |
DWS的详细功能说明,请参见《DWS用户指南》。
说明:
从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。 |
数据源(“DLI”) |
DLI的详细功能说明,请参见《DLI用户指南》。 |
数据源(“MRS”) |
MRS的详细功能说明,请参见《MRS用户指南》。 |
Schema信息 |
表格的列名和对应类型,需要跟导入数据的列数保持一致。请根据您导入的数据输入“列名”,同时选择此列的“类型”。其中支持的类型见表4。 单击“添加Schema信息”,即可增加一行列。创建数据集时必须指定schema,且一旦创建不支持修改。 从OBS数据源导入数据,会自动获取文件路径下csv文件的schema,如果多个csv文件的schema不一致会报错。 |
类型 |
描述 |
存储空间 |
范围 |
---|---|---|---|
String |
字符串 |
- |
- |
Short |
有符号整数 |
2字节 |
-32768-32767 |
Int |
有符号整数 |
4字节 |
-2147483648~2147483647 |
Long |
有符号整数 |
8字节 |
-9223372036854775808~9223372036854775807 |
Double |
双精度浮点型 |
8字节 |
- |
Float |
单精度浮点型 |
4字节 |
- |
Byte |
有符号整数 |
1字节 |
-128-127 |
Date |
日期类型,描述了特定的年月日,格式:yyyy-MM-dd,例如2014-05-29 |
- |
- |
Timestamp |
时间戳,表示日期和时间。格式:yyyy-MM-dd HH:mm:ss |
- |
- |
Boolean |
布尔类型 |
1字节 |
TRUE/FALSE |