查询数据集详情
功能介绍
查询数据集详情。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
URI
GET /v2/{project_id}/datasets/{dataset_id}
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
dataset_id | 是 | String | 数据集ID。 |
project_id | 是 | String | 用户项目ID。获取方法请参见获取项目ID和名称。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
check_running_task | 否 | Boolean | 是否检测数据集中正在运行(包括初始化)的任务。可选值如下:
|
running_task_type | 否 | Integer | 指定需要检测的正在运行任务(包括初始化)的类型。可选值如下:
|
请求参数
无
响应参数
状态码: 200
参数 | 参数类型 | 描述 |
|---|---|---|
annotated_sample_count | Integer | 数据集已标注的样本总数。 |
annotated_sub_sample_count | Integer | 已标注的子样本数量。 |
content_labeling | Boolean | 语音分割数据集是否开启内容标注,默认开启。 |
create_time | Long | 数据集的创建时间。 |
current_version_id | String | 数据集的当前版本ID。 |
current_version_name | String | 数据集的当前版本名称。版本名称,必须是字母、数字、下划线或中划线组成的合法字符串,长度为1-32位。 |
data_format | String | 数据格式。 |
data_sources | Array of DataSource objects | 数据来源列表。 |
data_statistics | Map<String,Object> | 数据集的样本统计信息,包括样本元信息的统计。 |
data_update_time | Long | 样本和标签的更新时间。 |
dataset_format | Integer | 数据集格式。可选值如下:
|
dataset_id | String | 数据集ID。 |
dataset_name | String | 数据集名称。 |
dataset_tags | Array of strings | 数据集关键标识列表,例如:["图片","物体检测"]。 |
dataset_type | Integer | 数据集类型。可选值如下:
|
dataset_version_count | Integer | 数据集的版本数量。 |
deleted_sample_count | Integer | 已删除的样本数量。 |
deletion_stats | Map<String,Integer> | 删除原因统计信息。 |
description | String | 数据集的描述。 |
enterprise_project_id | String | 企业项目ID。 |
exist_running_task | Boolean | 该数据集是否存在正在运行(包括初始化)的任务。可选值如下:
|
exist_workforce_task | Boolean | 数据集是否含团队标注任务。可选值如下:
|
feature_supports | Array of strings | 数据集支持的特性列表。当前只支持特性值“0”,表示限制OBS文件大小。 |
import_data | Boolean | 是否导入数据。可选值如下:
|
import_task_id | String | 导入任务ID。 |
inner_annotation_path | String | 数据集内部标注结果的保存路径。 |
inner_data_path | String | 数据集内部数据的保存路径。 |
inner_log_path | String | 数据集内部日志的保存路径。 |
inner_task_path | String | 数据集内部任务路径。 |
inner_temp_path | String | 数据集内部临时文件的保存路径。 |
inner_work_path | String | 数据集内部的输出目录。 |
label_task_count | Integer | 标注任务数量。 |
labels | Array of Label objects | 数据集标签列表。 |
loading_sample_count | Integer | 正在加载的样本数量。 |
managed | Boolean | 是否是托管数据集。可选值如下:
|
next_version_num | Integer | 数据集下个版本数。 |
running_tasks_id | Array of strings | 正在运行(包括初始化)任务ID列表。 |
schema | Array of Field objects | Schema列表。 |
status | Integer | 数据集状态。当前可选值:
|
third_path | String | 第三方路径。 |
total_sample_count | Integer | 数据集样本总数。 |
total_sub_sample_count | Integer | 由父样本所产生的子样本总数,比如:从视频标注数据集中抽取的关键帧图片总数就是子样本总数。 |
unconfirmed_sample_count | Integer | 智能标注待确认的标注样本数。 |
update_time | Long | 数据集的更新时间。 |
versions | Array of DatasetVersion objects | 数据集版本信息列表,目前仅记录数据集当前版本信息。 |
work_path | String | 数据集输出位置,用于存放输出的标注信息等文件。此位置为OBS路径,格式为“/桶名称/文件路径”。例如:“/obs-bucket”。 |
work_path_type | Integer | 数据集输出路径类型。默认值为0,表示OBS桶。 |
workforce_descriptor | WorkforceDescriptor object | 团队标注信息。 |
workforce_task_count | Integer | 数据集的团队标注任务数量。 |
workspace_id | String | 工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 |
参数 | 参数类型 | 描述 |
|---|---|---|
data_path | String | 数据源所在路径。 |
data_type | Integer | 数据类型。可选值如下:
|
schema_maps | Array of SchemaMap objects | 表格数据对应的schema映射信息。 |
source_info | SourceInfo object | 导入表格数据源所需的信息。 |
with_column_header | Boolean | 文件中首行是否是列名,用于表格数据集。可选值如下:
|
参数 | 参数类型 | 描述 |
|---|---|---|
cluster_id | String | MRS集群ID。可登录MRS控制台查看。 |
cluster_mode | String | MRS集群运行模式。可选值如下:
|
cluster_name | String | MRS集群名称。可登录MRS控制台查看。 |
database_name | String | 导入表格数据集,数据库名字。 |
input | String | 表格数据集,HDFS路径。例如/datasets/demo。 |
ip | String | 用户GaussDB(DWS)集群的IP地址。 |
port | String | 用户GaussDB(DWS)集群的端口。 |
queue_name | String | 表格数据集,DLI队列名。 |
subnet_id | String | MRS集群的子网ID。 |
table_name | String | 导入表格数据集,表名。 |
user_name | String | 用户名,GaussDB(DWS)数据需提供此参数。 |
user_password | String | 用户密码,GaussDB(DWS)数据需提供此参数。 |
vpc_id | String | MRS集群所在的vpc的ID。 |
参数 | 参数类型 | 描述 |
|---|---|---|
attributes | Array of LabelAttribute objects | 标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。 |
name | String | 标签名称。 |
property | LabelProperty object | 标签基本属性键值对,如颜色、快捷键等。 |
type | Integer | 标签类型。可选值如下:
|
参数 | 参数类型 | 描述 |
|---|---|---|
description | String | Schema描述。 |
name | String | Schema名称。 |
schema_id | Integer | Schema ID。 |
type | String | Schema值类型。 |
参数 | 参数类型 | 描述 |
|---|---|---|
add_sample_count | Integer | 新增样本数量。 |
analysis_cache_path | String | 特征分析的缓存路径。 |
analysis_status | Integer | 特征分析任务的当前状态。可选值如下:
|
analysis_task_id | String | 特征分析的任务ID。 |
annotated_sample_count | Integer | 版本已标注样本的数量。 |
annotated_sub_sample_count | Integer | 已标注的子样本数量。 |
clear_hard_property | Boolean | 发布时是否清空难例属性。可选值如下:
|
code | String | 旋转裁剪等预处理任务的状态码。 |
create_time | Long | 版本创建时间。 |
crop | Boolean | 是否对图片进行裁剪,只对标注框形状为bndbox的物体检测数据集有效。可选值如下:
|
crop_path | String | 裁剪后的文件存放路径。 |
crop_rotate_cache_path | String | 旋转裁剪任务执行的临时目录。 |
data_analysis | Map<String,Object> | 特征分析结果,json格式。 |
data_path | String | 数据保存路径。 |
data_statistics | Map<String,Object> | 数据集的样本统计信息,包括样本元信息的统计,json格式。 |
data_validate | Boolean | 发布前数据是否经过校验算法校验。可选值如下:
|
deleted_sample_count | Integer | 已删除的样本数量。 |
deletion_stats | Map<String,Integer> | 删除原因统计信息。 |
description | String | 版本描述信息。 |
export_images | Boolean | 发布时是否导出图片到版本输出目录。可选值如下:
|
extract_serial_number | Boolean | 发布时是否需要解析子样本序号,用于医疗数据集。可选值如下:
|
include_dataset_data | Boolean | 发布时是否包含数据集源数据。可选值如下:
|
is_current | Boolean | 是否为数据集当前版本。可选值如下:
|
label_stats | Array of LabelStats objects | 发布版本的各标签统计信息列表。 |
label_type | String | 发布版本的标签类型。可选值如下:
|
manifest_cache_input_path | String | 版本发布时的manifest文件缓存输入路径。 |
manifest_path | String | 版本发布的manifest文件保存路径。 |
message | String | 发布时记录的任务信息(如:错误信息等)。 |
modified_sample_count | Integer | 已修改的样本数量。 |
previous_annotated_sample_count | Integer | 父版本的已标注样本数量。 |
previous_total_sample_count | Integer | 父版本的样本总数。 |
previous_version_id | String | 父版本ID。 |
processor_task_id | String | 旋转裁剪等预处理任务ID。 |
processor_task_status | Integer | 旋转裁剪等预处理任务状态。当前可选值如下:
|
remove_sample_usage | Boolean | 发布时是否清除数据集已有的usage信息。可选值如下:
|
rotate | Boolean | 是否对图片进行旋转。可选值如下:
|
rotate_path | String | 旋转后的文件存放路径。 |
sample_state | String | 样本状态。可选样本状态如下:
|
start_processor_task | Boolean | 发布时是否启动数据分析任务。可选值如下:
|
status | Integer | 数据集版本状态。可选值如下:
|
tags | Array of strings | 版本关键标识列表,标注任务发布版本时将标注类型作为默认标签。如:["图片","物体检测"]。 |
task_type | Integer | 发布版本的标注任务类型,同数据集类型。 |
total_sample_count | Integer | 版本样本总数。 |
total_sub_sample_count | Integer | 从父样本生成的子样本总数。 |
train_evaluate_sample_ratio | String | 发布版本时切分训练验证比例,默认为1.00,即全部分为训练集。 |
update_time | Long | 版本更新时间。 |
version_format | String | 数据集版本格式。可选值如下:
|
version_id | String | 数据集版本ID。 |
version_name | String | 数据集版本名称。 |
with_column_header | Boolean | 发布的CSV文件的第一行是否为列名,对于表格数据集有效。可选值如下:
|
参数 | 参数类型 | 描述 |
|---|---|---|
attributes | Array of LabelAttribute objects | 标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。 |
count | Integer | 该标签的打标数量。 |
name | String | 标签名称。 |
property | LabelProperty object | 标签基本属性键值对,如颜色、快捷键等。 |
sample_count | Integer | 包含该标签的样本数量。 |
type | Integer | 标签类型。可选值如下:
|
参数 | 参数类型 | 描述 |
|---|---|---|
default_value | String | 标签属性默认值。 |
id | String | 标签属性ID。可通过调用标签列表查询。 |
name | String | 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 |
type | String | 标签属性类型。可选值如下:
|
values | Array of LabelAttributeValue objects | 标签属性值列表。 |
参数 | 参数类型 | 描述 |
|---|---|---|
@modelarts:color | String | 内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 |
@modelarts:default_shape | String | 内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下:
|
@modelarts:from_type | String | 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 |
@modelarts:rename_to | String | 内置属性:重命名后的标签名。 |
@modelarts:shortcut | String | 内置属性:标签快捷键,默认为空。例如:“D”。 |
@modelarts:to_type | String | 内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 |
参数 | 参数类型 | 描述 |
|---|---|---|
current_task_id | String | 团队标注任务ID。 |
current_task_name | String | 团队标注任务名称。 |
reject_num | Integer | 驳回的样本数。 |
repetition | Integer | 每个样本由多少人标注,最少为1。 |
is_synchronize_auto_labeling_data | Boolean | 是否同步更新智能标注数据。可选值如下:
|
is_synchronize_data | Boolean | 是否同步更新数据:如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下:
|
workers | Array of Worker objects | 标注成员列表。 |
workforce_id | String | 标注团队ID。 |
workforce_name | String | 标注团队名称。 |
请求示例
查询数据集详情
GET https://{endpoint}/v2/{project_id}/datasets/{dataset_id} 响应示例
状态码: 200
OK
{
"dataset_id" : "gfghHSokody6AJigS5A",
"dataset_name" : "dataset-f9e8",
"dataset_type" : 0,
"data_format" : "Default",
"next_version_num" : 4,
"status" : 1,
"data_sources" : [ {
"data_type" : 0,
"data_path" : "/test-obs/classify/input/animals/"
} ],
"create_time" : 1605690595404,
"update_time" : 1605690595404,
"description" : "",
"current_version_id" : "54IXbeJhfttGpL46lbv",
"current_version_name" : "V003",
"total_sample_count" : 10,
"annotated_sample_count" : 10,
"unconfirmed_sample_count" : 0,
"work_path" : "/test-obs/classify/output/",
"inner_work_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/",
"inner_annotation_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/",
"inner_data_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/data/",
"inner_log_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/logs/",
"inner_temp_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/temp/",
"inner_task_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/task/",
"work_path_type" : 0,
"workspace_id" : "0",
"enterprise_project_id" : "0",
"workforce_task_count" : 0,
"feature_supports" : [ "0" ],
"managed" : false,
"import_data" : false,
"label_task_count" : 1,
"dataset_format" : 0,
"dataset_version_count" : 3,
"content_labeling" : true,
"labels" : [ {
"name" : "Rabbits",
"type" : 0,
"property" : {
"@modelarts:color" : "#3399ff"
}
}, {
"name" : "Bees",
"type" : 0,
"property" : {
"@modelarts:color" : "#3399ff"
}
} ]
} 状态码
状态码 | 描述 |
|---|---|
200 | OK |
401 | Unauthorized |
403 | Forbidden |
404 | Not Found |
错误码
请参见错误码。

