创建导入任务
支持从OBS中导入新的数据,导入方式包括目录导入和Manifest文件导入。
dataset.import_data(path=None, anntation_config=None, **kwargs)
不同类型的数据集支持的导入方式如表1所示。
数据集类型 |
OBS目录导入 |
Manifest文件导入 |
备注 |
---|---|---|---|
图像分类 |
支持 |
支持 |
- |
物体检测 |
支持 |
支持 |
- |
图像分割 |
支持 |
支持 |
- |
文本分类 |
支持 |
支持 |
- |
命名实体 |
不支持 |
支持 |
- |
文本三元组 |
不支持 |
支持 |
- |
声音分类 |
支持 |
支持 |
- |
语音内容 |
不支持 |
支持 |
- |
语音分割 |
不支持 |
支持 |
- |
表格数据集 |
支持 |
不支持 |
新导入的表格数据的schema和数据集一致。 |
视频标注 |
不支持 |
支持 |
- |
示例代码
- 示例一:物体检测数据集目录导入
from modelarts.session import Session from modelarts.dataset import Dataset session = Session() dataset = Dataset(session, dataset_id) annotation_config = dict() annotation_config['scene'] = "object_detection" annotation_config['format_name'] = "ModelArts PASCAL VOC 1.0" import_resp = dataset.import_data(path="/obs-gaia-test/data/image/image-detection/", annotation_config=annotation_config)
- 示例二:物体检测数据集Manifest文件导入
annotation_config = dict() # Manifest文件导入任务中,传入annotation_config参数可以导入标注信息 import_resp = dataset.import_data( path="/obs-gaia-test/data/output/work_path/dataset-5932-Qdd1RUZ3wqBQrwrTr3v/annotation/V001/V001.manifest",annotation_config=annotation_config)
- 示例三:表格数据集目录导入
import_resp = dataset.import_data( path="/obs-gaia-test/data/table/table1/", with_column_header=True)
参数说明
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
path |
是 |
String |
导入的OBS路径或Manifest路径。
|
annotation_config |
否 |
数据标注格式的说明。该字段为None,则不导入标注信息。如果根据Manifest文件导入,可以传入一个内容为空的dict对象实现导入标注信息。目前支持的标注格式类型如下:
|
|
with_column_header |
否 |
Boolean |
表格数据集必选参数,表格的第一行是否为表头。
|