更新时间:2024-01-18 GMT+08:00

创建导入任务

支持从OBS中导入新的数据,导入方式包括目录导入Manifest文件导入

dataset.import_data(path=None,  anntation_config=None, **kwargs)

不同类型的数据集支持的导入方式如表1所示。

表1 不同数据集支持的导入方式

数据集类型

OBS目录导入

Manifest文件导入

备注

图像分类

支持

支持

-

物体检测

支持

支持

-

图像分割

支持

支持

-

文本分类

支持

支持

-

命名实体

不支持

支持

-

文本三元组

不支持

支持

-

声音分类

支持

支持

-

语音内容

不支持

支持

-

语音分割

不支持

支持

-

表格数据集

支持

不支持

新导入的表格数据的schema和数据集一致。

视频标注

不支持

支持

-

示例代码

  • 示例一:物体检测数据集目录导入
    from modelarts.session import Session
    from modelarts.dataset import Dataset
    session = Session()
    
    dataset = Dataset(session, dataset_id)
    annotation_config = dict()
    annotation_config['scene'] = "object_detection"
    annotation_config['format_name'] = "ModelArts PASCAL VOC 1.0"
    import_resp = dataset.import_data(path="/obs-gaia-test/data/image/image-detection/", annotation_config=annotation_config)
  • 示例二:物体检测数据集Manifest文件导入
    annotation_config = dict()    # Manifest文件导入任务中,传入annotation_config参数可以导入标注信息
    import_resp = dataset.import_data(
                path="/obs-gaia-test/data/output/work_path/dataset-5932-Qdd1RUZ3wqBQrwrTr3v/annotation/V001/V001.manifest",annotation_config=annotation_config)
  • 示例三:表格数据集目录导入
    import_resp = dataset.import_data(
                path="/obs-gaia-test/data/table/table1/", with_column_header=True)

参数说明

表2 请求参数

参数

是否必选

参数类型

描述

path

String

导入的OBS路径或Manifest路径。

  • 导入Manifest时,path必须精确到具体Manifest文件。
  • 导入为目录时,目前仅支持数据集类型为图片分类、物体检测、图像分割、文本分类、声音分类和表格数据集。
  • 字符限制:不允许出现的特殊字符有换行符(\n)、回车符(\r)、制表符(\t)。

annotation_config

表4

数据标注格式的说明。该字段为None,则不导入标注信息。如果根据Manifest文件导入,可以传入一个内容为空的dict对象实现导入标注信息。目前支持的标注格式类型如下:

  • 图像分类
  • 物体检测
  • 语音分类
  • 文本分类

with_column_header

Boolean

表格数据集必选参数,表格的第一行是否为表头。

  • True:第一行数据作为表头
  • False:第一行数据不作为表头,仅为样本数据