更新时间:2023-12-14 GMT+08:00

查询数据集列表

功能介绍

根据指定条件分页查询用户创建的所有数据集。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

GET /v2/{project_id}/datasets

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

用户项目ID。获取方法请参见获取项目ID和名称

表2 Query参数

参数

是否必选

参数类型

描述

check_running_task

Boolean

是否检测数据集中正在运行(包括初始化)的任务。可选值如下:

  • true:检测数据集中正在运行(包括初始化)的任务

  • false:不检测数据集中正在运行的任务(默认值)

contain_versions

Boolean

数据集是否包含版本。

dataset_type

Integer

数据集类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组

  • 200:声音分类

  • 201:语音内容

  • 202:语音分割

  • 400:表格数据集

  • 600:视频标注

  • 900:自由格式

file_preview

Boolean

查询数据集的同时是否支持预览。可选值如下:

  • true:支持预览,同时返回一部分数据集文件列表,每个数据集返回4个。

  • false:不支持预览(默认值)。

limit

Integer

指定每一页返回的最大条目数,取值范围[1,100],默认为10。

offset

Integer

分页列表的起始页,默认为0。

order

String

指定查询的排序顺序。可选值如下:

  • asc:递增排序

  • desc:递减排序(默认值)

running_task_type

Integer

指定需要检测的正在运行任务(包括初始化)的类型。可选值如下:

  • 0:自动标注

  • 1:预标注

  • 2:导出任务

  • 3:切换版本

  • 4:导出manifest

  • 5:导入manifest

  • 6:发布版本

  • 7:自动分组

search_content

String

模糊匹配名称,默认为空。

sort_by

String

指定查询的排序方式。可选值如下:

  • create_time:按创建时间排序(默认值)

  • dataset_name:按数据集名称排序

support_export

Boolean

是否过滤只支持导出的数据集(当前仅图像分类、物体检测、自由格式三种数据集支持导出),不传该参数或参数取值为false表示不过滤。可选值如下:

  • true:过滤只支持导出的数据集

  • false:不过滤只支持导出的数据集(默认值)

train_evaluate_ratio

String

根据版本切分比例筛选数据集。例如:“0.0,1.0”,根据逗号分隔最小和最大切分比例,筛选出切分比例在此范围内的版本。说明:如果参数值为空或无该参数,系统默认不根据版本切分比例筛选数据集。

version_format

Integer

根据数据集发布的版本格式筛选数据集,过滤出包含符合筛选条件的数据集列表。可选值如下:

  • 0:默认格式

  • 1:Carbon格式(仅表格数据集支持)

  • 2:CSV格式

with_labels

Boolean

返回数据集的标签。可选值如下:

  • true:返回标签信息

  • false:不返回标签信息(默认值)

workspace_id

String

工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。

dataset_version

String

数据集版本(用于区分标注任务解耦前的数据集和解耦后的数据集)。可选值如下:

  • v1:数据集与标注任务解耦前的数据集(默认值)

  • v2:数据集与标注任务解耦后的数据集

  • all:所有数据集

请求参数

响应参数

状态码: 200

表3 响应Body参数

参数

参数类型

描述

datasets

Array of DatasetAndFilePreview objects

分页查询到的数据集列表。

total_number

Integer

数据集总数,不能超过100个。

表4 DatasetAndFilePreview

参数

参数类型

描述

annotated_sample_count

Integer

数据集已标注的样本总数。

annotated_sub_sample_count

Integer

已标注的子样本数量。

content_labeling

Boolean

语音分割数据集是否开启内容标注,默认开启。

create_time

Long

数据集的创建时间。

current_version_id

String

数据集的当前版本ID。

current_version_name

String

数据集的当前版本名称。版本名称,必须是字母、数字、下划线或中划线组成的合法字符串,长度为1-32位。

data_format

String

数据格式。

data_sources

Array of DataSource objects

数据来源列表。

data_statistics

Map<String,Object>

数据集的样本统计信息,包括样本元信息的统计,json格式。

data_update_time

Long

样本和标签的更新时间。

data_url

String

训练所用的数据路径。

dataset_format

Integer

数据集格式。可选值如下:

  • 0:文件型

  • 1:表格型

dataset_id

String

数据集ID。

dataset_name

String

数据集名称。

dataset_tags

Array of strings

数据集关键标识列表,例如:["图片","物体检测"]。

dataset_type

Integer

数据集类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组

  • 200:声音分类

  • 201:语音内容

  • 202:语音分割

  • 400:表格数据集

  • 600:视频标注

  • 900:自由格式

dataset_version_count

Integer

数据集的版本数量。

deleted_sample_count

Integer

已删除的样本数量。

deletion_stats

Map<String,Integer>

删除原因统计信息。

description

String

数据集的描述。

enterprise_project_id

String

企业项目ID。

exist_running_task

Boolean

该数据集是否存在正在运行(包括初始化)的任务。可选值如下:

  • true:数据集存在正在运行的任务

  • false:数据集不存在正在运行的任务

exist_workforce_task

Boolean

数据集是否含团队标注任务。可选值如下:

  • true:数据集包含团队标注任务

  • false:数据集不包含团队标注任务

feature_supports

Array of strings

数据集支持的特性列表。当前只支持特性值“0”,表示限制OBS文件大小。

import_data

Boolean

是否导入数据。可选值如下:

  • true:导入数据

  • false:不导入数据

import_task_id

String

导入任务ID。

inner_annotation_path

String

数据集内部标注结果的保存路径。

inner_data_path

String

数据集内部数据的保存路径。

inner_log_path

String

数据集内部日志的保存路径。

inner_task_path

String

数据集内部任务路径。

inner_temp_path

String

数据集内部临时文件的保存路径。

inner_work_path

String

数据集内部的输出目录。

label_task_count

Integer

标注任务数量。

labels

Array of Label objects

数据集标签列表。

loading_sample_count

Integer

正在加载的样本数量。

managed

Boolean

是否是托管数据集。可选值如下:

  • true:托管数据集

  • false:非托管数据集

next_version_num

Integer

数据集下个版本数。

running_tasks_id

Array of strings

正在运行(包括初始化)任务ID列表。

samples

Array of AnnotationFile objects

样本列表。

schema

Array of Field objects

Schema列表。

status

Integer

数据集状态。当前可选值:

  • 0:数据集创建中

  • 1:数据集正常

  • 2:数据集删除中

  • 3:数据集已删除

  • 4:数据集异常

  • 5:数据集同步中

  • 6:数据集发布中

  • 7:数据集版本切换中

  • 8:数据集导入中

third_path

String

第三方路径。

total_sample_count

Integer

数据集样本总数。

total_sub_sample_count

Integer

由父样本所产生的子样本总数,比如:从视频标注数据集中抽取的关键帧图片总数就是子样本总数。

unconfirmed_sample_count

Integer

智能标注待确认的标注样本数。

update_time

Long

数据集的更新时间。

versions

Array of DatasetVersion objects

数据集版本信息列表,目前仅记录数据集当前版本信息。

work_path

String

数据集输出位置,用于存放输出的标注信息等文件。此位置为OBS路径,格式为“/桶名称/文件路径”。例如:“/obs-bucket”。

work_path_type

Integer

数据集输出路径类型。默认值为0,表示OBS桶。

workforce_descriptor

WorkforceDescriptor object

团队标注信息。

workforce_task_count

Integer

数据集的团队标注任务数量。

workspace_id

String

工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。

表5 DataSource

参数

参数类型

描述

data_path

String

数据源所在路径。

data_type

Integer

数据类型。可选值如下:

  • 0:OBS桶(默认值)

  • 1:GaussDB(DWS)服务

  • 2:DLI服务

  • 3:RDS服务

  • 4:MRS服务

  • 5:AI Gallery

  • 6:推理服务

schema_maps

Array of SchemaMap objects

表格数据对应的schema映射信息。

source_info

SourceInfo object

导入表格数据源所需的信息。

with_column_header

Boolean

文件中首行是否是列名,用于表格数据集。可选值如下:

  • true:文件首行为列名

  • false:文件首行不为列名

表6 SchemaMap

参数

参数类型

描述

dest_name

String

目的方的列名。

src_name

String

来源方的列名。

表7 SourceInfo

参数

参数类型

描述

cluster_id

String

MRS集群ID。可登录MRS控制台查看。

cluster_mode

String

MRS集群运行模式。可选值如下:

  • 0:普通集群

  • 1:安全集群

cluster_name

String

MRS集群名称。可登录MRS控制台查看。

database_name

String

导入表格数据集,数据库名字。

input

String

表格数据集,HDFS路径。例如/datasets/demo。

ip

String

用户GaussDB(DWS)集群的IP地址。

port

String

用户GaussDB(DWS)集群的端口。

queue_name

String

表格数据集,DLI队列名。

subnet_id

String

MRS集群的子网ID。

table_name

String

导入表格数据集,表名。

user_name

String

用户名,GaussDB(DWS)数据需提供此参数。

user_password

String

用户密码,GaussDB(DWS)数据需提供此参数。

vpc_id

String

MRS集群所在的vpc的ID。

表8 Label

参数

参数类型

描述

attributes

Array of LabelAttribute objects

标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。

name

String

标签名称。

property

LabelProperty object

标签基本属性键值对,如颜色、快捷键等。

type

Integer

标签类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组关系标签

  • 103:文本三元组实体标签

  • 200:语音分类

  • 201:语音内容

  • 202:语音分割

  • 600:视频标注

表9 AnnotationFile

参数

参数类型

描述

create_time

Long

样本创建时间。

dataset_id

String

数据集ID。

depth

Integer

图像样本通道数。

file_Name

String

样本名称。

file_id

String

样本ID。

file_type

String

文件类型。

height

Integer

图像样本高度。

size

Long

图像样本尺寸大小。

tags

Map<String,String>

样本的标签信息。

url

String

预览样本的OBS地址。

width

Integer

图像样本宽度。

表10 Field

参数

参数类型

描述

description

String

Schema描述。

name

String

Schema名称。

schema_id

Integer

Schema ID。

type

String

Schema值类型。

表11 DatasetVersion

参数

参数类型

描述

add_sample_count

Integer

新增样本数量。

analysis_cache_path

String

特征分析的缓存路径。

analysis_status

Integer

特征分析任务的当前状态。可选值如下:

  • 0:初始化

  • 1:运行中

  • 2:完成

  • 3:失败

analysis_task_id

String

特征分析的任务ID。

annotated_sample_count

Integer

版本已标注样本的数量。

annotated_sub_sample_count

Integer

已标注的子样本数量。

clear_hard_property

Boolean

发布时是否清空难例属性。可选值如下:

  • true:清空难例属性(默认值)

  • false:不清空难例属性

code

String

旋转裁剪等预处理任务的状态码。

create_time

Long

版本创建时间。

crop

Boolean

是否对图片进行裁剪,只对标注框形状为bndbox的物体检测数据集有效。可选值如下:

  • true:对图片进行裁剪

  • false:不对图片进行裁剪(默认值)

crop_path

String

裁剪后的文件存放路径。

crop_rotate_cache_path

String

旋转裁剪任务执行的临时目录。

data_analysis

Map<String,Object>

特征分析结果,json格式。

data_path

String

数据保存路径。

data_statistics

Map<String,Object>

数据集的样本统计信息,包括样本元信息的统计,json格式。

data_validate

Boolean

发布前数据是否经过校验算法校验。可选值如下:

  • true:数据经过校验

  • false:数据未经过校验

deleted_sample_count

Integer

已删除的样本数量。

deletion_stats

Map<String,Integer>

删除原因统计信息。

description

String

版本描述信息。

export_images

Boolean

发布时是否导出图片到版本输出目录。可选值如下:

  • true:导出图片到版本输出目录

  • false:不导出图片到版本输出目录(默认值)

extract_serial_number

Boolean

发布时是否需要解析子样本序号,用于医疗数据集。可选值如下:

  • true:解析子样本序号

  • false:不解析子样本序号(默认值)

include_dataset_data

Boolean

发布时是否包含数据集源数据。可选值如下:

  • true:包含数据集源数据

  • false:不包含数据集源数据

is_current

Boolean

是否为数据集当前版本。可选值如下:

  • true:数据集当前版本

  • false:非数据集当前版本

label_stats

Array of LabelStats objects

发布版本的各标签统计信息列表。

label_type

String

发布版本的标签类型。可选值如下:

  • multi:表示含有多标签样本

  • single:表示所有样本均为单标签

manifest_cache_input_path

String

版本发布时的manifest文件缓存输入路径。

manifest_path

String

版本发布的manifest文件保存路径。

message

String

发布时记录的任务信息(如:错误信息等)。

modified_sample_count

Integer

已修改的样本数量。

previous_annotated_sample_count

Integer

父版本的已标注样本数量。

previous_total_sample_count

Integer

父版本的样本总数。

previous_version_id

String

父版本ID。

processor_task_id

String

旋转裁剪等预处理任务ID。

processor_task_status

Integer

旋转裁剪等预处理任务状态。当前可选值如下:

  • 0:初始化

  • 1:运行中

  • 2:完成

  • 3:失败

  • 4:停止

  • 5:超时

  • 6:删除失败

  • 7:停止失败

remove_sample_usage

Boolean

发布时是否清除数据集已有的usage信息。可选值如下:

  • true:清除数据集已有的usage信息(默认值)

  • false:不清除数据集已有的usage信息

rotate

Boolean

是否对图片进行旋转。可选值如下:

  • true:对图片进行旋转

  • false:不对图片进行旋转(默认值)

rotate_path

String

旋转后的文件存放路径。

sample_state

String

样本状态。可选样本状态如下:

  • __ALL__:已标注

  • __NONE__:未标注

  • __UNCHECK__:待验收

  • __ACCEPTED__:验收通过

  • __REJECTED__:已驳回

  • __UNREVIEWED__:待审核

  • __REVIEWED__:已审核

  • __WORKFORCE_SAMPLED__:已采样

  • __WORKFORCE_SAMPLED_UNCHECK__:采样待验收

  • __WORKFORCE_SAMPLED_CHECKED__:采样已验收

  • __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过

  • __WORKFORCE_SAMPLED_REJECTED__:采样已驳回

  • __AUTO_ANNOTATION__:待确认

start_processor_task

Boolean

发布时是否启动数据分析任务。可选值如下:

  • true:发布时启动特征分析任务

  • false:发布时不启动特征分析任务(默认值)

status

Integer

数据集版本状态。可选值如下:

  • 0:创建中

  • 1:运行中

  • 2:删除中

  • 3:已删除

  • 4:错误

tags

Array of strings

版本关键标识列表,标注任务发布版本时将标注类型作为默认标签。如:["图片","物体检测"]。

task_type

Integer

发布版本的标注任务类型,同数据集类型。

total_sample_count

Integer

版本样本总数。

total_sub_sample_count

Integer

从父样本生成的子样本总数。

train_evaluate_sample_ratio

String

发布版本时切分训练验证比例,默认为1.00,即全部分为训练集。

update_time

Long

版本更新时间。

version_format

String

数据集版本格式。可选值如下:

  • Default:默认格式

  • CarbonData:Carbon格式(仅表格数据集支持)

  • CSV:CSV格式

version_id

String

数据集版本ID。

version_name

String

数据集版本名称。

with_column_header

Boolean

发布的CSV文件的第一行是否为列名,对于表格数据集有效。可选值如下:

  • true:发布的CSV文件的第一行是列名

  • false:发布的CSV文件的第一行不是列名

表12 LabelStats

参数

参数类型

描述

attributes

Array of LabelAttribute objects

标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。

count

Integer

该标签的打标数量。

name

String

标签名称。

property

LabelProperty object

标签基本属性键值对,如颜色、快捷键等。

sample_count

Integer

包含该标签的样本数量。

type

Integer

标签类型。可选值如下:

  • 0:图像分类

  • 1:物体检测

  • 3: 图像分割

  • 100:文本分类

  • 101:命名实体

  • 102:文本三元组关系标签

  • 103:文本三元组实体标签

  • 200:语音分类

  • 201:语音内容

  • 202:语音分割

  • 600:视频标注

表13 LabelAttribute

参数

参数类型

描述

default_value

String

标签属性默认值。

id

String

标签属性ID。可通过调用标签列表查询。

name

String

标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。

type

String

标签属性类型。可选值如下:

  • text:文本

  • select:单选下拉列表

values

Array of LabelAttributeValue objects

标签属性值列表。

表14 LabelAttributeValue

参数

参数类型

描述

id

String

标签属性值ID。

value

String

标签属性值。

表15 LabelProperty

参数

参数类型

描述

@modelarts:color

String

内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。

@modelarts:default_shape

String

内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下:

  • bndbox:矩形。

  • polygon:多边形。

  • circle:圆形。

  • line:直线。

  • dashed:虚线。

  • point:点。

  • polyline:折线。

@modelarts:from_type

String

内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

@modelarts:rename_to

String

内置属性:重命名后的标签名。

@modelarts:shortcut

String

内置属性:标签快捷键,默认为空。例如:“D”。

@modelarts:to_type

String

内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

表16 WorkforceDescriptor

参数

参数类型

描述

current_task_id

String

团队标注任务ID。

current_task_name

String

团队标注任务名称。

reject_num

Integer

驳回的样本数。

repetition

Integer

每个样本由多少人标注,最少为1。

is_synchronize_auto_labeling_data

Boolean

是否同步更新智能标注数据。可选值如下:

  • true:同步更新智能标注数据

  • false:不同步更新智能标注数据

is_synchronize_data

Boolean

是否同步更新数据:如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下:

  • true:同步更新数据至团队成员

  • false:不同步更新数据至团队成员

workers

Array of Worker objects

标注成员列表。

workforce_id

String

标注团队ID。

workforce_name

String

标注团队名称。

表17 Worker

参数

参数类型

描述

create_time

Long

创建时间。

description

String

标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。

email

String

标注成员邮箱。

role

Integer

角色。可选值如下:

  • 0:打标者

  • 1:审核者

  • 2:团队管理者

  • 3:数据集拥有者

status

Integer

标注成员的当前登录状态。可选值如下:

  • 0:未发送邀请邮件

  • 1:已发送邀请邮件但未登录

  • 2:已登录

  • 3:标注成员已删除

update_time

Long

更新时间。

worker_id

String

标注成员ID。

workforce_id

String

所属标注团队ID。

请求示例

查询数据集列表

GET https://{endpoint}/v2/{project_id}/datasets?offset=0&limit=10&sort_by=create_time&order=desc&dataset_type=0&file_preview=true

响应示例

状态码: 200

OK

{
  "total_number" : 1,
  "datasets" : [ {
    "dataset_id" : "gfghHSokody6AJigS5A",
    "dataset_name" : "dataset-f9e8",
    "dataset_type" : 0,
    "data_format" : "Default",
    "next_version_num" : 4,
    "status" : 1,
    "data_sources" : [ {
      "data_type" : 0,
      "data_path" : "/test-obs/classify/input/animals/"
    } ],
    "create_time" : 1605690595404,
    "update_time" : 1605690595404,
    "description" : "",
    "current_version_id" : "54IXbeJhfttGpL46lbv",
    "current_version_name" : "V003",
    "total_sample_count" : 10,
    "annotated_sample_count" : 10,
    "work_path" : "/test-obs/classify/output/",
    "inner_work_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/",
    "inner_annotation_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/",
    "inner_data_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/data/",
    "inner_log_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/logs/",
    "inner_temp_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/temp/",
    "inner_task_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/task/",
    "work_path_type" : 0,
    "workspace_id" : "0",
    "enterprise_project_id" : "0",
    "exist_running_task" : false,
    "exist_workforce_task" : false,
    "running_tasks_id" : [ ],
    "workforce_task_count" : 0,
    "feature_supports" : [ "0" ],
    "managed" : false,
    "import_data" : false,
    "label_task_count" : 1,
    "dataset_format" : 0,
    "content_labeling" : true,
    "samples" : [ {
      "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/15.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=tuUo9jl6lqoMKAwNBz5g8dxO%2FdE%3D",
      "create_time" : 1605690596035
    }, {
      "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/8.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=NITOdBnkUXtdnKuEgDzZpkQzNfM%3D",
      "create_time" : 1605690596046
    }, {
      "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/9.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=%2BwUo1BL38%2F2d7p7anPi4fNzm1VU%3D",
      "create_time" : 1605690596050
    }, {
      "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/7.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=tOrHfcWo%2FEJ0wRzfi1M5Wk2MrXg%3D",
      "create_time" : 1605690596043
    } ]
  } ]
}

状态码

状态码

描述

200

OK

401

Unauthorized

403

Forbidden

404

Not Found

错误码

请参见错误码