文档首页 > > AI工程师用户指南> 管理数据(推荐)> 创建数据集

创建数据集

分享
更新时间: 2019/12/12 GMT+08:00

在ModelArts进行数据管理时,首先您需要创建一个数据集,后续的操作,如标注数据、导入数据、数据集发布等,都是基于您创建和管理的数据集。

前提条件

  • 数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您可以在“数据管理(Beta) > 数据集”页面,单击“服务授权”,由具备授权的账号“同意授权”后,即可使用。
  • 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。
  • 需要使用的数据已上传至OBS。

操作步骤

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理(Beta) > 数据集”,进入“数据集”管理页面。
  2. 单击“创建数据集”,在创建数据集页面,参考表1填写信息,然后单击“创建”
    图1 创建数据集
    表1 参数说明

    参数名称

    说明

    名称

    数据集的名称,名称只能是字母、数字、下划线或者中划线组成的合法字符串。

    描述

    数据集的简要描述。

    数据集输入位置

    单击选择数据集输入位置的OBS路径。

    数据集输出位置

    单击选择数据集输出位置的OBS路径。

    说明:

    “数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。

    标注场景

    可选择“物体”“音频”“文本”三种标注场景。

    标注类型

    • 标注场景为“物体”
      • 图像分类:识别一张图片中是否包含某种物体。
      • 物体检测:识别出图片中每个物体的位置及类别。
    • 标注场景为“音频”
      • 声音分类:对声音进行分类。
      • 语音内容:对语音内容进行标注。
      • 语音分割:对语音进行分段标注。
    • 标注场景为“文本”
      • 文本分类:对文本的内容按照标签进行分类处理。
      • 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。
      • 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。

    添加标签集

    • 设置标签名称:在标签名称文本框中,输入标签名称。标签名称只能是中文、字母、数字、下划线或中划线组成的合法字符串。长度为1~32字符。
    • 添加标签属性:针对“物体检测”类型的数据集,支持为标签添加标签属性。
    • 添加标签:单击添加标签。
    • 设置标签颜色:在每个标签右侧的标签颜色区域下,单击,然后在如下所示色板中选择颜色,或者直接输入十六进制颜色码进行设置。

    启用团队标注

    当选择的“标注类型”“物体检测”时,支持“团队标注”功能。您可以选择是否启用团队标注。

    在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介

    启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

    数据集创建完成后,系统自动跳转至数据集管理页面,针对创建好的数据集,您可以执行标注数据、发布、管理版本、修改、导入和删除等操作。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区