更新时间:2024-01-18 GMT+08:00
创建导入任务
支持从OBS中导入新的数据,导入方式包括目录导入和Manifest文件导入。
dataset.import_data(path=None, anntation_config=None, **kwargs)
不同类型的数据集支持的导入方式如表1所示。
数据集类型 | OBS目录导入 | Manifest文件导入 | 备注 |
|---|---|---|---|
图像分类 | 支持 | 支持 | - |
物体检测 | 支持 | 支持 | - |
图像分割 | 支持 | 支持 | - |
文本分类 | 支持 | 支持 | - |
命名实体 | 不支持 | 支持 | - |
文本三元组 | 不支持 | 支持 | - |
声音分类 | 支持 | 支持 | - |
语音内容 | 不支持 | 支持 | - |
语音分割 | 不支持 | 支持 | - |
表格数据集 | 支持 | 不支持 | 新导入的表格数据的schema和数据集一致。 |
视频标注 | 不支持 | 支持 | - |
示例代码
- 示例一:物体检测数据集目录导入
from modelarts.session import Session from modelarts.dataset import Dataset session = Session() dataset = Dataset(session, dataset_id) annotation_config = dict() annotation_config['scene'] = "object_detection" annotation_config['format_name'] = "ModelArts PASCAL VOC 1.0" import_resp = dataset.import_data(path="/obs-gaia-test/data/image/image-detection/", annotation_config=annotation_config)
- 示例二:物体检测数据集Manifest文件导入
annotation_config = dict() # Manifest文件导入任务中,传入annotation_config参数可以导入标注信息 import_resp = dataset.import_data( path="/obs-gaia-test/data/output/work_path/dataset-5932-Qdd1RUZ3wqBQrwrTr3v/annotation/V001/V001.manifest",annotation_config=annotation_config) - 示例三:表格数据集目录导入
import_resp = dataset.import_data( path="/obs-gaia-test/data/table/table1/", with_column_header=True)
参数说明
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
path | 是 | String | 导入的OBS路径或Manifest路径。
|
annotation_config | 否 | 数据标注格式的说明。该字段为None,则不导入标注信息。如果根据Manifest文件导入,可以传入一个内容为空的dict对象实现导入标注信息。目前支持的标注格式类型如下:
| |
with_column_header | 否 | Boolean | 表格数据集必选参数,表格的第一行是否为表头。
|
父主题:导入任务管理

