更新时间:2024-11-22 GMT+08:00

从OBS目录导入数据到数据集

前提条件

文件型数据从OBS目录导入操作

不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 >数据集”,进入“数据集”管理页面。
  2. 在数据集所在行,单击操作列的“导入”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”
  3. “导入”对话框中,参考如下说明填写参数,然后单击“确定”
    • “数据来源”“OBS”
    • “导入方式”“目录”
    • “导入路径”:数据存储的OBS路径。
    • “数据标注状态”:已标注。
    • “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。

      如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。

    图1 导入数据集-OBS

    导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。

文件型数据标注状态

数据标注状态分为“未标注”“已标注”

  • 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
  • 已标注:同时导入标注对象和标注内容,当前“自由格式”的数据集不支持导入标注内容。

    为了确保能够正确读取标注内容,要求用户严格按照规范存放数据:

    导入方式选择目录时,需要用户选择“标注格式”,并按照标注格式的要求存放数据,详细规范请参见标注格式章节。

    导入方式选择manifest时,需要满足manifest文件的规范。

    • 数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。
    • 导入已标注的文件,导入完成后,请检查您导入的数据是否为已标注状态。

表格数据集从OBS导入操作

ModelArts支持从OBS导入表格数据,即csv文件。

表格数据集导入说明:

  • 导入成功的前提是,数据源的schema需要与创建数据集指定的schema保持一致。其中schema指表格的列名和类型,创建数据集时一旦指定,不支持修改。
  • 从OBS导入csv文件,不会校验数据类型,但是列数需要跟数据集的schema保持一致。如果数据格式不合法,会将数据置为null,详见表4
  • 导入的csv文件要求如下:需要选择文件所在目录,其中csv文件的列数需要跟数据集schema一致。支持自动获取csv文件的schema。
├─dataset-import-example 
│      table_import_1.csv 
│      table_import_2.csv
│      table_import_3.csv
│      table_import_4.csv