创建数据集
功能介绍
创建数据集。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
请求参数
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
data_format | 否 | String | 数据格式。可选值如下:
|
data_sources | 是 | Array of DataSource objects | 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。目前仅支持传入单个DataSource。 |
dataset_name | 是 | String | 数据集名称。 |
dataset_type | 否 | Integer | 数据集类型。可选值如下:
|
description | 否 | String | 数据集描述,默认为空,描述不能包含^!<>=&"'等特殊字符,长度为0-256。 |
import_annotations | 否 | Boolean | 是否自动导入输入目录下的标注信息,支持物体检测、图像分类、文本分类。可选值如下:
|
import_data | 否 | Boolean | 是否导入数据,此参数当前仅表格数据集使用。可选值如下:
|
label_format | 否 | LabelFormat object | 标签格式信息,此参数仅文本类数据集使用。 |
labels | 否 | Array of Label objects | 数据集标签列表。 |
managed | 否 | Boolean | 是否是托管数据集。可选值如下:
|
schema | 否 | Array of Field objects | Schema列表。 |
work_path | 是 | String | 数据集输出位置,用于存放输出的标注信息等文件。
|
work_path_type | 是 | Integer | 数据集输出路径类型。默认值为0,表示OBS桶。 |
workforce_information | 否 | WorkforceInformation object | 团队标注信息。 |
workspace_id | 否 | String | 工作空间ID。若未创建工作空间,默认值为“0”;若存在创建并使用的工作空间,以实际取值为准。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
data_path | 否 | String | 数据源所在路径。 |
data_type | 否 | Integer | 数据类型。可选值如下:
|
schema_maps | 否 | Array of SchemaMap objects | 表格数据对应的schema映射信息。 |
source_info | 否 | SourceInfo object | 导入表格数据源所需的信息。 |
with_column_header | 否 | Boolean | 文件中首行是否是列名,用于表格数据集。可选值如下:
|
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
cluster_id | 否 | String | MRS集群ID。可登录MRS控制台查看。 |
cluster_mode | 否 | String | MRS集群运行模式。可选值如下:
|
cluster_name | 否 | String | MRS集群名称。可登录MRS控制台查看。 |
database_name | 否 | String | 导入表格数据集,数据库名字。 |
input | 否 | String | 表格数据集,HDFS路径。例如/datasets/demo。 |
ip | 否 | String | 用户GaussDB(DWS)集群的IP地址。 |
port | 否 | String | 用户GaussDB(DWS)集群的端口。 |
queue_name | 否 | String | 表格数据集,DLI队列名。 |
subnet_id | 否 | String | MRS集群的子网ID。 |
table_name | 否 | String | 导入表格数据集,表名。 |
user_name | 否 | String | 用户名,GaussDB(DWS)数据需提供此参数。 |
user_password | 否 | String | 用户密码,GaussDB(DWS)数据需提供此参数。 |
vpc_id | 否 | String | MRS集群所在的vpc的ID。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
label_type | 否 | String | 文本分类的标签类型。可选值如下:
|
text_label_separator | 否 | String | 标签与标签之间的分隔符,默认为逗号分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/':.;,”其中的某一字符。 |
text_sample_separator | 否 | String | 文本与标签之间的分隔符,默认为Tab键分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/':.;,”其中的某一字符。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
attributes | 否 | Array of LabelAttribute objects | 标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。 |
name | 否 | String | 标签名称。 |
property | 否 | LabelProperty object | 标签基本属性键值对,如颜色、快捷键等。 |
type | 否 | Integer | 标签类型。可选值如下:
|
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
default_value | 否 | String | 标签属性默认值。 |
id | 否 | String | 标签属性ID。可通过调用标签列表查询。 |
name | 否 | String | 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 |
type | 否 | String | 标签属性类型。可选值如下:
|
values | 否 | Array of LabelAttributeValue objects | 标签属性值列表。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
@modelarts:color | 否 | String | 内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 |
@modelarts:default_shape | 否 | String | 内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下:
|
@modelarts:from_type | 否 | String | 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 |
@modelarts:rename_to | 否 | String | 内置属性:重命名后的标签名。 |
@modelarts:shortcut | 否 | String | 内置属性:标签快捷键,默认为空。例如:“D”。 |
@modelarts:to_type | 否 | String | 内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
description | 否 | String | Schema描述。 |
name | 否 | String | Schema名称。 |
schema_id | 否 | Integer | Schema ID。 |
type | 否 | String | Schema值类型。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
data_sync_type | 否 | Integer | 同步类型。可选值如下:
|
repetition | 否 | Integer | 每个样本由多少人标注,最少为1。 |
synchronize_auto_labeling_data | 否 | Boolean | 是否同步更新智能标注数据。可选值如下:
|
synchronize_data | 否 | Boolean | 是否同步更新:如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下:
|
task_id | 否 | String | 团队标注任务ID。 |
task_name | 是 | String | 团队标注任务名称。 |
workforces_config | 否 | WorkforcesConfig object | 团队标注任务的人力分配,委托管理员或自行分配二选一。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
agency | 否 | String | 管理员。 |
workforces | 否 | Array of WorkforceConfig objects | 执行标注任务的团队列表。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
workers | 否 | Array of Worker objects | 标注成员列表。 |
workforce_id | 否 | String | 标注团队ID。 |
workforce_name | 否 | String | 标注团队名称,名称不能包含!<>=&"',长度为0-1024位。 |
参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
create_time | 否 | Long | 创建时间。 |
description | 否 | String | 标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 |
否 | String | 标注成员邮箱。 | |
role | 否 | Integer | 角色。可选值如下:
|
status | 否 | Integer | 标注成员的当前登录状态。可选值如下:
|
update_time | 否 | Long | 更新时间。 |
worker_id | 否 | String | 标注成员ID。 |
workforce_id | 否 | String | 所属标注团队ID。 |
响应参数
状态码: 201
参数 | 参数类型 | 描述 |
|---|---|---|
dataset_id | String | 数据集ID。 |
error_code | String | 错误码。 |
error_msg | String | 错误信息。 |
import_task_id | String | 导入任务ID。 |
请求示例
创建图像分类的数据集
{ "workspace_id" : "0", "dataset_name" : "dataset-457f", "dataset_type" : 0, "data_sources" : [ { "data_type" : 0, "data_path" : "/test-obs/classify/input/animals/" } ], "description" : "", "work_path" : "/test-obs/classify/output/", "work_path_type" : 0, "labels" : [ { "name" : "Rabbits", "type" : 0, "property" : { "@modelarts:color" : "#3399ff" } }, { "name" : "Bees", "type" : 0, "property" : { "@modelarts:color" : "#3399ff" } } ] }创建物体检测的数据集
{ "workspace_id" : "0", "dataset_name" : "dataset-95a6", "dataset_type" : 1, "data_sources" : [ { "data_type" : 0, "data_path" : "/test-obs/detect/input/animals/" } ], "description" : "", "work_path" : "/test-obs/detect/output/", "work_path_type" : 0, "labels" : [ { "name" : "Rabbits", "type" : 1, "property" : { "@modelarts:color" : "#3399ff" } }, { "name" : "Bees", "type" : 1, "property" : { "@modelarts:color" : "#3399ff" } } ] }创建表格型的数据集
{ "workspace_id" : "0", "dataset_name" : "dataset-de83", "dataset_type" : 400, "data_sources" : [ { "data_type" : 0, "data_path" : "/test-obs/table/input/", "with_column_header" : true } ], "description" : "", "work_path" : "/test-obs/table/output/", "work_path_type" : 0, "schema" : [ { "schema_id" : 1, "name" : "150", "type" : "STRING" }, { "schema_id" : 2, "name" : "4", "type" : "STRING" }, { "schema_id" : 3, "name" : "setosa", "type" : "STRING" }, { "schema_id" : 4, "name" : "versicolor", "type" : "STRING" }, { "schema_id" : 5, "name" : "virginica", "type" : "STRING" } ], "import_data" : true }
响应示例
状态码: 201
Created
{
"dataset_id" : "WxCREuCkBSAlQr9xrde"
} 状态码
状态码 | 描述 |
|---|---|
201 | Created |
401 | Unauthorized |
403 | Forbidden |
404 | Not Found |
错误码
请参见错误码。

