文档首页 > > AI工程师用户指南> 管理数据> 创建数据集

创建数据集

分享
更新时间:2020/09/02 GMT+08:00

在ModelArts进行数据管理时,首先您需要创建一个数据集,后续的操作,如标注数据、导入数据、数据集发布等,都是基于您创建的数据集。

前提条件

  • 数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您可以在“数据管理 > 数据集”页面,单击“服务授权”,由具备授权的账号“同意授权”后,即可使用。

    如果使用“账号”登录,可直接在弹出对话框中同意授权。如果使用“IAM用户”(即子账号)登录,需主账号或具备Admin权限的用户进行授权操作。

  • 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。
  • 需要使用的数据已上传至OBS。详细指导请参见如何上传数据至OBS

操作步骤

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入“数据集”管理页面。
  2. 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建不同类型的数据集。
    1. 填写数据集基本信息,数据集的“名称”“描述”
      图1 数据集基本信息
    2. 根据您的需求,选择“标注场景”“标注类型”,ModelArts目前支持的类型及其说明请参见数据集的类型
      图2 选择标注场景和标注类型
    3. 针对不同类型的数据集,需填写参数不同,请参考如下类型数据集对应的参数介绍。
    4. 参数填写无误后,单击页面右下角“创建”

      数据集创建完成后,系统自动跳转至数据集管理页面,针对创建好的数据集,您可以执行标注数据、发布、版本管理、修改、导入和删除等操作。不同类型数据集,支持的操作请参见不同类型数据集支持的功能列表

图片(图像分类、物体检测)

图3 图像分类和物体检测类型的参数
表1 数据集的详细参数

参数名称

说明

数据集输入位置

选择数据集输入位置的OBS路径。

数据集输出位置

选择数据集输出位置的OBS路径。

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。

添加标签集

  • 设置标签名称:在标签名称文本框中,输入标签名称。标签名称只能是中文、字母、数字、下划线或中划线组成的合法字符串。长度为1~32字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:仅“物体检测”类型数据集需设置此参数。在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。

启用团队标注

选择是否启用团队标注。

启用团队标注功能,需填写对应的团队标注任务“名称”“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务

在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介

启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

音频(声音分类、语音内容、语音分割)

图4 声音分类、语音内容、语音分割类型数据集的参数

参数名称

说明

数据集输入位置

选择数据集输入位置的OBS路径。

数据集输出位置

选择数据集输出位置的OBS路径。

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。

添加标签集

仅“声音分类”类型的数据集需设置标签。

  • 设置标签名称:在标签名称文本框中,输入标签名称。标签名称只能是中文、字母、数字、下划线或中划线组成的合法字符串。长度为1~32字符。
  • 添加标签:单击“添加标签”可增加多个标签。

文本(文本分类、命名实体、文本三元组)

图5 文本分类、命名实体、文本三元组类型数据集的参数
表2 数据集的详细参数

参数名称

说明

数据集输入位置

选择数据集输入位置的OBS路径。

数据集输出位置

选择数据集输出位置的OBS路径。

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。

添加标签集(文本分类、命名实体)

  • 设置标签名称:在标签名称文本框中,输入标签名称。标签名称只能是中文、字母、数字、下划线或中划线组成的合法字符串。长度为1~32字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。

添加标签集(文本三元组)

针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。

  • 实体标签:需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。
  • 关系标签:关系标签为两个实体之间的关系。需设置起始实体和终止实体,您需要先添加至少2个实体标签后,再添加关系标签。

启用团队标注

选择是否启用团队标注。

启用团队标注功能,需填写对应的团队标注任务“名称”“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务

在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介

启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

表格

图6 表格类型的参数
表3 数据集的详细参数

参数名称

说明

存储路径

选择表格数据存储路径(OBS路径),此位置会存放由数据源导入的数据。此位置不能和OBS数据源中的文件路径相同或为其子目录。

创建表格数据集后,在存储路径下会自动生成以下4个目录。

  • annotation:版本发布目录,每次发布版本,会在此目录下生成和版本名称相同的子目录。
  • data:数据存放目录,导入的数据会放在此目录。
  • logs:日志存放目录。
  • temp:临时工作目录。

是否导入

如果您在其他云服务上存储了表格数据,可启用此功能,现支持将存储在对象存储服务(OBS)、数据湖探索(DLI)或MapReduce服务(MRS)的数据导入。

数据源(“OBS”

  • “文件路径”:单击输入框右侧按钮,可打开当前账号下的所有OBS桶,请选择需要导入的数据文件所在目录。
  • “是否包含表头”:开启表示导入文件包含表头,此时会将导入文件的第一行作为列名,否则会添加默认列名,自动填写在Schema信息中。

OBS的详细功能说明,请参见《OBS用户指南》。

数据源(“DWS”

  • “集群名称”:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。
  • “数据库名称”:根据选择的DWS集群,填写数据所在的数据库名称。
  • “表名称”:根据选择的数据库,填写数据所在的表。
  • “用户名”:输入DWS集群管理员用户的用户名。
  • “密码”:输入DWS集群管理员用户的密码。

DWS的详细功能说明,请参见《DWS用户指南》。

说明:

从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。

数据源(“DLI”

  • “队列名称”:系统自动将当前账号下的DLI队列展现在列表中,您可以在下拉框中选择您所需的队列。
  • “数据库名称”:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。
  • “表名称”:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。

DLI的详细功能说明,请参见《DLI用户指南》。

数据源(“MRS”

  • “集群名称”:系统自动将当前账号下的MRS集群展现在此列表中,但是流式集群不支持导入操作。请在下拉框中选择您所需的集群。
  • “文件路径”:根据选择的集群,输入对应的文件路径,此文件路径为HDFS路径。
  • “导入时是否包含表头”:开启表示导入时将表头同时导入。

MRS的详细功能说明,请参见《MRS用户指南》。

Schema信息

表格的列名和对应类型,需要跟导入数据的列数保持一致。请根据您导入的数据输出“列名”,同时选择此列的“类型”。其中支持的类型见表4

单击“添加Schema信息”,即可增加一行列。创建数据集时必须指定schema,且一旦创建不支持修改。

从OBS数据源导入数据,会自动获取文件路径下csv文件的schema,如果多个csv文件的schema不一致会报错。

表4 Schema数据类型说明

类型

描述

存储空间

范围

String

字符串

-

-

Short

有符号整数

2字节

-32768-32767

Int

有符号整数

4字节

-2147483648~2147483647

Long

有符号整数

8字节

-9223372036854775808~9223372036854775807

Double

双精度浮点型

8字节

-

Float

单精度浮点型

4字节

-

Byte

有符号整数

1字节

-128-127

Date

日期类型,描述了特定的年月日,格式:yyyy-MM-dd,例如2014-05-29

-

-

Timestamp

时间戳,表示日期和时间。格式:yyyy-MM-dd HH:mm:ss

-

-

Boolean

布尔类型

1字节

TRUE/FALSE

视频

图7 视频类型的参数
表5 数据集的详细参数

参数名称

说明

数据集输入位置

选择数据集输入位置的OBS路径。

数据集输出位置

选择数据集输出位置的OBS路径。

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。

添加标签集

  • 设置标签名称:在标签名称文本框中,输入标签名称。标签名称只能是中文、字母、数字、下划线或中划线组成的合法字符串。长度为1~32字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。

其他(自由格式)

图8 自由格式类型数据集的参数
表6 数据集的详细参数

参数名称

说明

数据集输入位置

选择数据集输入位置的OBS路径。

数据集输出位置

选择数据集输出位置的OBS路径。

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问