更新时间:2024-05-30 GMT+08:00

创建导入任务

功能介绍

创建数据集的导入任务:从存储系统导入样本、标签到数据集。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/datasets/{dataset_id}/import-tasks

表1 路径参数

参数

是否必选

参数类型

描述

dataset_id

String

数据集ID。

project_id

String

用户项目ID。获取方法请参见获取项目ID和名称

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

data_source

DataSource object

数据来源。

difficult_only

Boolean

是否只导入难例。可选值如下:

  • true:只导入难例样本

  • false:导入全部样本(默认值)

excluded_labels

Array of Label objects

不导入包含指定标签的样本。

final_annotation

Boolean

是否导入到最终状态。可选值如下:

  • true:导入到最终状态(默认值)

  • false:不导入到最终状态

import_annotations

Boolean

是否导入标签。可选值如下:

  • true:导入标签(默认值)

  • false:不导入标签

import_folder

String

导入后在数据集存储目录下子目录的名称。多次不同导入可以指定同一个子目录,避免相同样本重复导入。注:对表格数据集不可用。

import_origin

String

数据来源。可选值如下:

  • obs:OBS桶(默认值)

  • dws:GaussDB(DWS)服务

  • dli:DLI服务

  • rds:RDS服务

  • mrs:MRS服务

  • inference:推理服务

import_path

String

导入的OBS路径或manifest路径。

  • 导入manifest时,path必须精确到具体manifest文件。

  • 导入为目录时,目前仅支持数据集类型为图片分类、物体检测、文本分类、声音分类。

import_samples

Boolean

是否导入样本。可选值如下:

  • true:导入样本(默认值)

  • false:不导入样本

import_type

String

导入方式。可选值如下:

  • dir:目录导入

  • manifest:按manifest文件导入

included_labels

Array of Label objects

导入包含指定标签的样本。

label_format

LabelFormat object

标签格式,此参数仅文本类数据集使用。

with_column_header

Boolean

文件中首行是否是列名,若是列名则不导入首行,用于表格数据集。可选值如下:

  • true:文件首行为列名

  • false:文件首行不为列名(默认值)

表3 DataSource

参数

是否必选

参数类型

描述

data_path

String

数据源所在路径。

data_type

Integer

数据类型。可选值如下:

  • 0:OBS桶(默认值)

  • 1:GaussDB(DWS)服务

  • 2:DLI服务

  • 3:RDS服务

  • 4:MRS服务

  • 5:AI Gallery

  • 6:推理服务

schema_maps

Array of SchemaMap objects

表格数据对应的schema映射信息。

source_info

SourceInfo object

导入表格数据源所需的信息。

with_column_header

Boolean

文件中首行是否是列名,用于表格数据集。可选值如下:

  • true:文件首行为列名

  • false:文件首行不为列名

表4 SchemaMap

参数

是否必选

参数类型

描述

dest_name

String

目的方的列名。

src_name

String

来源方的列名。

表5 SourceInfo

参数

是否必选

参数类型

描述

cluster_id

String

MRS集群ID。可登录MRS控制台查看。

cluster_mode

String

MRS集群运行模式。可选值如下:

  • 0:普通集群

  • 1:安全集群

cluster_name

String

MRS集群名称。可登录MRS控制台查看。

database_name

String

导入表格数据集,数据库名字。

input

String

表格数据集,HDFS路径。例如/datasets/demo。

ip

String

用户GaussDB(DWS)集群的IP地址。

port

String

用户GaussDB(DWS)集群的端口。

queue_name

String

表格数据集,DLI队列名。

subnet_id

String

MRS集群的子网ID。

table_name

String

导入表格数据集,表名。

user_name

String

用户名,GaussDB(DWS)数据需提供此参数。

user_password

String

用户密码,GaussDB(DWS)数据需提供此参数。

vpc_id

String

MRS集群所在的vpc的ID。

表6 Label

参数

是否必选

参数类型

描述

attributes

Array of LabelAttribute objects

标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。

name

String

标签名称。

property

LabelProperty object

标签基本属性键值对,如颜色、快捷键等。

type

Integer

标签类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组关系标签

  • 103:文本三元组实体标签

  • 200:语音分类

  • 201:语音内容

  • 202:语音分割

  • 600:视频标注

表7 LabelAttribute

参数

是否必选

参数类型

描述

default_value

String

标签属性默认值。

id

String

标签属性ID。可通过调用标签列表查询。

name

String

标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。

type

String

标签属性类型。可选值如下:

  • text:文本

  • select:单选下拉列表

values

Array of LabelAttributeValue objects

标签属性值列表。

表8 LabelAttributeValue

参数

是否必选

参数类型

描述

id

String

标签属性值ID。

value

String

标签属性值。

表9 LabelProperty

参数

是否必选

参数类型

描述

@modelarts:color

String

内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。

@modelarts:default_shape

String

内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下:

  • bndbox:矩形。

  • polygon:多边形。

  • circle:圆形。

  • line:直线。

  • dashed:虚线。

  • point:点。

  • polyline:折线。

@modelarts:from_type

String

内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

@modelarts:rename_to

String

内置属性:重命名后的标签名。

@modelarts:shortcut

String

内置属性:标签快捷键,默认为空。例如:“D”。

@modelarts:to_type

String

内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

表10 LabelFormat

参数

是否必选

参数类型

描述

label_type

String

文本分类的标签类型。可选值如下:

  • 0:标签和文本分离,以固定后缀“_result”区分。如:文本文件是“abc.txt”,标签文件是“abc_result.txt”。

  • 1:默认值,标签和文本在一个文件内,以分隔符分离。文本与标签,标签与标签之间的分隔符可通过text_sample_separator和text_label_separator指定。

text_label_separator

String

标签与标签之间的分隔符,默认为逗号分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/':.;,”其中的某一字符。

text_sample_separator

String

文本与标签之间的分隔符,默认为Tab键分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/':.;,”其中的某一字符。

响应参数

状态码: 200

表11 响应Body参数

参数

参数类型

描述

task_id

String

导入任务ID。

请求示例

  • 创建导入(从OBS导入)任务

    {
      "import_type" : "dir",
      "import_path" : "s3://test-obs/daoLu_images/animals/",
      "included_labels" : [ ],
      "import_annotations" : false,
      "difficult_only" : false
    }
  • 创建导入(从Manifest导入)任务

    {
      "import_type" : "manifest",
      "import_path" : "s3://test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/V002/V002.manifest",
      "included_labels" : [ "rabbits", "bees", "Rabbits", "Bees" ],
      "import_annotations" : true,
      "difficult_only" : false
    }

响应示例

状态码: 200

OK

{
  "task_id" : "gfghHSokody6AJigS5A_m1dYqOw8vWCAznw1V28"
}

状态码

状态码

描述

200

OK

401

Unauthorized

403

Forbidden

404

Not Found

错误码

请参见错误码