更新时间:2024-05-30 GMT+08:00

创建数据集导出任务

功能介绍

创建数据集导出任务,可导出至OBS或新数据集。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/datasets/{dataset_id}/export-tasks

表1 路径参数

参数

是否必选

参数类型

描述

dataset_id

String

数据集ID。

project_id

String

用户项目ID。获取方法请参见获取项目ID和名称

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

annotation_format

String

标注格式。当前可取以下值:

  • VOC:VOC格式

  • COCO:COCO格式

export_format

Integer

导出的目录格式。可选值如下:

  • 1:树状结构。如:rabbits/1.jpg,bees/2.jpg。

  • 2:平铺结构。如:1.jpg, 1.txt;2.jpg,2.txt。

export_params

ExportParams object

导出数据集任务的参数。

export_type

Integer

导出类型。可选值如下:

  • 0:已标注

  • 1:未标注

  • 2:全部

  • 3:条件筛选

path

String

导出到OBS的输出路径。导出数据到OBS或者导出为新的数据集时该参数必传。

sample_state

String

样本状态。可选样本状态如下:

  • __ALL__:已标注

  • __NONE__:未标注

  • __UNCHECK__:待验收

  • __ACCEPTED__:验收通过

  • __REJECTED__:已驳回

  • __UNREVIEWED__:待审核

  • __REVIEWED__:已审核

  • __WORKFORCE_SAMPLED__:已采样

  • __WORKFORCE_SAMPLED_UNCHECK__:采样待验收

  • __WORKFORCE_SAMPLED_CHECKED__:采样已验收

  • __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过

  • __WORKFORCE_SAMPLED_REJECTED__:采样已驳回

  • __AUTO_ANNOTATION__:待确认

source_type_header

String

指定导出标注文件中的OBS路径前缀,默认为“obs://”,支持指定“s3://”。由于训练无法解析以“obs”开头图片路径,需要导出manifest中的路径前缀为“s3://”。

status

Integer

任务状态。

task_id

String

任务ID。

version_format

String

数据集版本格式。可选值如下:

  • Default:默认格式

  • CarbonData:Carbon格式(仅表格数据集支持)

  • CSV:CSV格式

version_id

String

数据集版本ID。当导出数据集某一版本的数据时,需要指定该参数。

with_column_header

Boolean

导出时是否将列名写到CSV文件的第一行,对于表格数据集有效。可选值如下:

  • true:导出时将列名写到CSV文件的第一行(默认值)

  • false:导出时不将列名写到CSV文件的第一行

表3 ExportParams

参数

是否必选

参数类型

描述

clear_hard_property

Boolean

是否清空难例属性。可选值如下:

  • true:清空难例属性(默认值)

  • false:不清空难例属性

export_dataset_version_format

String

导出数据集版本的格式。

export_dataset_version_name

String

导出数据集版本的名称。

export_dest

String

数据集导出类型。可选值如下:

  • DIR:导出到OBS(默认值)

  • NEW_DATASET:导出到新数据集

export_new_dataset_name

String

导出新数据集的名称。

export_new_dataset_work_path

String

导出新数据集的工作目录。

ratio_sample_usage

Boolean

指定切分比例后,是否按指定比例随机分配训练-验证集。可选值如下:

  • true:主动随机分配训练集-验证集

  • false:不主动随机分配训练集-验证集(默认值)

sample_state

String

样本状态。可选样本状态如下:

  • __ALL__:已标注

  • __NONE__:未标注

  • __UNCHECK__:待验收

  • __ACCEPTED__:验收通过

  • __REJECTED__:已驳回

  • __UNREVIEWED__:待审核

  • __REVIEWED__:已审核

  • __WORKFORCE_SAMPLED__:已采样

  • __WORKFORCE_SAMPLED_UNCHECK__:采样待验收

  • __WORKFORCE_SAMPLED_CHECKED__:采样已验收

  • __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过

  • __WORKFORCE_SAMPLED_REJECTED__:采样已驳回

  • __AUTO_ANNOTATION__:待确认

samples

Array of strings

导出的样本ID列表。

search_conditions

Array of SearchCondition objects

导出的筛选条件,多个条件之间是或(OR)关系。

train_sample_ratio

String

指定发布版本时训练集-验证集的切分比例,默认为1.00,即全部分为训练集。

表4 SearchCondition

参数

是否必选

参数类型

描述

coefficient

String

根据难度系数筛选。

frame_in_video

Integer

视频中某帧。

hard

String

样本级别是否难例。可选值如下:

  • 0:非难例样本

  • 1:难例样本

import_origin

String

根据数据来源筛选。

kvp

String

CT剂量,通过剂量来筛选。

label_list

SearchLabels object

标签搜索条件。

labeler

String

标注人。

metadata

SearchProp object

通过样本属性搜索。

parent_sample_id

String

父样本ID。

sample_dir

String

根据样本所在目录搜索(目录需要以/结尾),只搜索指定目录下的样本,不支持目录递归搜索。

sample_name

String

根据样本名称搜索(含后缀名)。

sample_time

String

样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下:

  • month:搜索往前30天至今天内添加的样本

  • day:搜索昨天(往前1天)至今天内添加的样本

  • yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。

score

String

根据置信度筛选。

slice_thickness

String

DICOM层厚,通过层厚筛选样本。

study_date

String

DICOM扫描时间。

time_in_video

String

视频中某个时间。

表5 SearchLabels

参数

是否必选

参数类型

描述

labels

Array of SearchLabel objects

标签搜索条件列表。

op

String

如要搜索多个标签,则op需要有值;如果只搜索一个标签,则无需指定op的值。可选值如下:

  • OR:或操作

  • AND:与操作

表6 SearchLabel

参数

是否必选

参数类型

描述

name

String

标签名。

op

String

多个属性之间的操作类型。可选值如下:

  • OR:或操作

  • AND:与操作

property

Map<String,Array<String>>

标签属性,是Object格式,存放任意的键值对;key是属性名称,value是取值列表,如value为null表示不根据值搜索,否则搜索的值满足列表中任意一个即可。

type

Integer

标签类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组关系标签

  • 103:文本三元组实体标签

  • 200:语音分类

  • 201:语音内容

  • 202:语音分割

  • 600:视频标注

表7 SearchProp

参数

是否必选

参数类型

描述

op

String

多个属性值之间的关系。可选值如下:

  • AND:与关系

  • OR:或关系

props

Map<String,Array<String>>

属性的搜索条件,可以有多个属性条件。

响应参数

状态码: 200

表8 响应Body参数

参数

参数类型

描述

create_time

Long

任务创建时间。

error_code

String

错误码。

error_msg

String

错误信息。

export_format

Integer

导出的目录格式。可选值如下:

  • 1:树状结构。如:rabbits/1.jpg,bees/2.jpg。

  • 2:平铺结构。如:1.jpg, 1.txt;2.jpg,2.txt。

export_params

ExportParams object

导出数据集任务的参数。

export_type

Integer

导出类型。可选值如下:

  • 0:已标注

  • 1:未标注

  • 2:全部

  • 3:条件筛选

finished_sample_count

Integer

已完成的样本数量。

path

String

导出的输出路径。

progress

Float

任务当前进度百分比。

status

String

任务状态。可选值如下:

  • INIT:初始化

  • RUNNING:运行中

  • FAILED:已失败

  • SUCCESSED:已完成

task_id

String

任务ID。

total_sample_count

Integer

样本总数量。

update_time

Long

任务更新时间。

version_format

String

数据集版本格式。可选值如下:

  • Default:默认格式

  • CarbonData:Carbon格式(仅表格数据集支持)

  • CSV:CSV格式

version_id

String

数据集版本ID。

表9 ExportParams

参数

参数类型

描述

clear_hard_property

Boolean

是否清空难例属性。可选值如下:

  • true:清空难例属性(默认值)

  • false:不清空难例属性

export_dataset_version_format

String

导出数据集版本的格式。

export_dataset_version_name

String

导出数据集版本的名称。

export_dest

String

数据集导出类型。可选值如下:

  • DIR:导出到OBS(默认值)

  • NEW_DATASET:导出到新数据集

export_new_dataset_name

String

导出新数据集的名称。

export_new_dataset_work_path

String

导出新数据集的工作目录。

ratio_sample_usage

Boolean

指定切分比例后,是否按指定比例随机分配训练-验证集。可选值如下:

  • true:主动随机分配训练集-验证集

  • false:不主动随机分配训练集-验证集(默认值)

sample_state

String

样本状态。可选样本状态如下:

  • __ALL__:已标注

  • __NONE__:未标注

  • __UNCHECK__:待验收

  • __ACCEPTED__:验收通过

  • __REJECTED__:已驳回

  • __UNREVIEWED__:待审核

  • __REVIEWED__:已审核

  • __WORKFORCE_SAMPLED__:已采样

  • __WORKFORCE_SAMPLED_UNCHECK__:采样待验收

  • __WORKFORCE_SAMPLED_CHECKED__:采样已验收

  • __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过

  • __WORKFORCE_SAMPLED_REJECTED__:采样已驳回

  • __AUTO_ANNOTATION__:待确认

samples

Array of strings

导出的样本ID列表。

search_conditions

Array of SearchCondition objects

导出的筛选条件,多个条件之间是或(OR)关系。

train_sample_ratio

String

指定发布版本时训练集-验证集的切分比例,默认为1.00,即全部分为训练集。

表10 SearchCondition

参数

参数类型

描述

coefficient

String

根据难度系数筛选。

frame_in_video

Integer

视频中某帧。

hard

String

样本级别是否难例。可选值如下:

  • 0:非难例样本

  • 1:难例样本

import_origin

String

根据数据来源筛选。

kvp

String

CT剂量,通过剂量来筛选。

label_list

SearchLabels object

标签搜索条件。

labeler

String

标注人。

metadata

SearchProp object

通过样本属性搜索。

parent_sample_id

String

父样本ID。

sample_dir

String

根据样本所在目录搜索(目录需要以/结尾),只搜索指定目录下的样本,不支持目录递归搜索。

sample_name

String

根据样本名称搜索(含后缀名)。

sample_time

String

样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下:

  • month:搜索往前30天至今天内添加的样本

  • day:搜索昨天(往前1天)至今天内添加的样本

  • yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。

score

String

根据置信度筛选。

slice_thickness

String

DICOM层厚,通过层厚筛选样本。

study_date

String

DICOM扫描时间。

time_in_video

String

视频中某个时间。

表11 SearchLabels

参数

参数类型

描述

labels

Array of SearchLabel objects

标签搜索条件列表。

op

String

如要搜索多个标签,则op需要有值;如果只搜索一个标签,则无需指定op的值。可选值如下:

  • OR:或操作

  • AND:与操作

表12 SearchLabel

参数

参数类型

描述

name

String

标签名。

op

String

多个属性之间的操作类型。可选值如下:

  • OR:或操作

  • AND:与操作

property

Map<String,Array<String>>

标签属性,是Object格式,存放任意的键值对;key是属性名称,value是取值列表,如value为null表示不根据值搜索,否则搜索的值满足列表中任意一个即可。

type

Integer

标签类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组关系标签

  • 103:文本三元组实体标签

  • 200:语音分类

  • 201:语音内容

  • 202:语音分割

  • 600:视频标注

表13 SearchProp

参数

参数类型

描述

op

String

多个属性值之间的关系。可选值如下:

  • AND:与关系

  • OR:或关系

props

Map<String,Array<String>>

属性的搜索条件,可以有多个属性条件。

请求示例

  • 创建导出(导出到OBS)任务

    {
      "path" : "/test-obs/daoChu/",
      "export_type" : 3,
      "export_params" : {
        "sample_state" : "",
        "export_dest" : "DIR"
      }
    }
  • 创建导出(导出新数据集)任务

    {
      "path" : "/test-obs/classify/input/",
      "export_type" : 3,
      "export_params" : {
        "sample_state" : "",
        "export_dest" : "NEW_DATASET",
        "export_new_dataset_name" : "dataset-export-test",
        "export_new_dataset_work_path" : "/test-obs/classify/output/"
      }
    }

响应示例

状态码: 200

OK

{
  "task_id" : "rF9NNoB56k5rtYKg2Y7"
}

状态码

状态码

描述

200

OK

401

Unauthorized

403

Forbidden

404

Not Found

错误码

请参见错误码