更新时间:2024-04-02 GMT+08:00
分享

创建或更新数据集

功能介绍

本接口用于创建或更新数据集。

- 根据是否存在id字段,判断是创建还是更新数据集
    - 返回数据集ID

调用方法

请参见如何调用API

URI

POST /v1/agents/datasets

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

用户Token。 通过调用接口获取用户Token接口获取。

X-Language

String

根据自己偏好的语言来获取不同语言的返回内容,zh-cn或者en_us

Content-Type

String

消息体的类型(格式),必选,默认取值为“application/json”,有其他取值时会在具体接口中专门说明。

表2 请求Body参数

参数

是否必选

参数类型

描述

id

String

数据集id。 支持数字,英文字母,下划线,长度0-32

最小长度:0

最大长度:32

name

String

数据集名称。 支持英文字母,数字,下划线,特殊符号,只能以英文字母开头,特殊符号不包括?!.*?_$ 长度0-128

最小长度:0

最大长度:128

description

String

描述

最小长度:0

最大长度:1000

columns

Array of AgDatasetColumnVo objects

数据集字段信息

数组长度:0 - 1000

connector_id

String

连接器id。 支持数字,英文字母,下划线,长度0-32

最小长度:0

最大长度:32

connector_name

String

连接器名称。 支持英文字母,数字,下划线,特殊符号,只能以英文字母开头,特殊符号不包括?!.*?_$ 长度0-128

最小长度:0

最大长度:128

data_type

String

连接器数据类型 1.RDS--云数据库类型 2.MYSQL--MySQL类型 3.DWS--高斯数据库类型 4.MRS--MapReduce数据类型 5.ORACLE--ORACLE数据类型 6.LOCAL_CSV--本地数据类型

枚举值:

  • RDS

  • MYSQL

  • DWS

  • MRS

  • ORACLE

  • LOCAL_CSV

ag_dataset_table

AgDatasetTableVo object

数据集表信息

ag_dataset_local

AgDatasetLocalVo object

本地数据集信息

ext_columns

Array of AgDatasetColumnVo objects

额外字段信息

数组长度:0 - 1000

表3 AgDatasetTableVo

参数

是否必选

参数类型

描述

data_id

String

数据集id。 支持数字,英文字母,下划线,长度0-32

最小长度:0

最大长度:32

db_schema

String

schema名称

最小长度:0

最大长度:150

table_name

String

表名

最小长度:0

最大长度:500

表4 AgDatasetLocalVo

参数

是否必选

参数类型

描述

data_id

String

数据集id。 支持数字,英文字母,下划线,长度0-32

最小长度:0

最大长度:32

file_type

String

数据集类型

枚举值:

  • CSV

  • DIR

delimiter

String

csv文件分隔符

最小长度:0

最大长度:32

is_header_exist

Boolean

数据文件是否包含表头

data_file_path

String

数据文件地址

最小长度:0

最大长度:256

id_file_path

String

id文件地址

最小长度:0

最大长度:256

config_file_path

String

配置文件地址

最小长度:0

最大长度:256

auto_generate_data

Boolean

是否自动生成数据,即纵向联邦学习样本对齐之后的流程是否使用样本对其结果自动过滤。

ext

LocalDatasetExtEntity object

扩展信息,包含multihot配置信息,样例:"[{"features":"x1,x2,x3","field_size":50},{"features":"x4,x5,x6","field_size":120}]"

表5 LocalDatasetExtEntity

参数

是否必选

参数类型

描述

multihot_settings

Array of MultiHotGroup objects

multihot配置信息

数组长度:0 - 1000

表6 MultiHotGroup

参数

是否必选

参数类型

描述

features

Array of strings

用“,”连接的一组MultiHot特征

数组长度:0 - 10000

field_size

Integer

一组特征的取值种类总数

最大值:100000

表7 AgDatasetColumnVo

参数

是否必选

参数类型

描述

comments

String

字段备注

最小长度:0

最大长度:1000

data_id

String

数据集id。 支持数字,英文字母,下划线,长度0-32。

最小长度:0

最大长度:32

column_name

String

字段名称

最小长度:0

最大长度:200

data_type

String

字段类型

最小长度:0

最大长度:50

sql_col_privacy_type

String

sql数据集字段隐私分类。 1.UNIQUE_ID--唯一标识 2.SENSITIVE--敏感 3.NON_SENSITIVE--非敏感

枚举值:

  • UNIQUE_ID

  • SENSITIVE

  • NON_SENSITIVE

fl_label_type

String

联邦学习字段标签分类

枚举值:

  • UNIQUE_ID

  • FEATURE

  • LABEL

  • FILTER

privacy_policy

String

字段数据处理隐私策略。 1.MASK--掩码 2.NONE--不处理

枚举值:

  • NONE

  • MASK

privacy_policy_ext

String

字段数据隐私处理具体描述

最小长度:0

最大长度:500

feature_type

String

特征类型 1.CONTINUOUS--连续型 2.DISCRETE--离散型 3.MULTIHOT--multihot型

枚举值:

  • CONTINUOUS

  • DISCRETE

  • MULTIHOT

field_size

Integer

只有离散类型特征支持该属性,表示离散特征取值范围

最小值:0

最大值:100000

响应参数

状态码: 200

表8 响应Body参数

参数

参数类型

描述

id

String

数据集id。 支持数字,英文字母,下划线,长度32。

最小长度:0

最大长度:32

请求示例

  • 创建本地连接器数据集(LOCAL_CSV)

    post https://100.1.1.1:31000/v1/agents/datasets
    
    {
      "name" : "test",
      "connector_id" : "connector1",
      "connector_name" : "localConnector",
      "data_type" : "LOCAL_CSV",
      "description" : "本地连接器数据集",
      "columns" : [ {
        "column_name" : "id",
        "data_type" : "string",
        "fl_label_type" : "UNIQUE_ID"
      }, {
        "column_name" : "user_id",
        "data_type" : "integer",
        "fl_label_type" : "FEATURE",
        "feature_type" : "DISCRETE",
        "field_size" : 193
      }, {
        "column_name" : "movie_id",
        "data_type" : "integer",
        "fl_label_type" : "FEATURE",
        "feature_type" : "DISCRETE",
        "field_size" : 187
      }, {
        "column_name" : "genres_0",
        "data_type" : "integer",
        "fl_label_type" : "FEATURE",
        "feature_type" : "MULTIHOT"
      }, {
        "column_name" : "genres_1",
        "data_type" : "integer",
        "fl_label_type" : "FEATURE",
        "feature_type" : "MULTIHOT"
      }, {
        "column_name" : "dummy_genres_0",
        "data_type" : "integer",
        "fl_label_type" : "FEATURE",
        "feature_type" : "MULTIHOT"
      }, {
        "column_name" : "dummy_genres_1",
        "data_type" : "integer",
        "fl_label_type" : "FEATURE",
        "feature_type" : "MULTIHOT"
      } ],
      "ag_dataset_local" : {
        "delimiter" : ",",
        "is_header_exist" : true,
        "data_file_path" : "/xx/",
        "id_file_path" : "",
        "config_file_path" : "",
        "dataset_id" : "",
        "auto_generate_data" : true,
        "dataset_name" : "test",
        "ext" : {
          "multihot_settings" : [ {
            "features" : [ "genres_0", "genres_1" ],
            "field_size" : 17
          }, {
            "features" : [ "dummy_genres_0", "dummy_genres_1" ],
            "field_size" : 10
          } ]
        }
      }
    }
  • 创建数据集(RDS)

    post https://100.1.1.1:31000/v1/agents/datasets
    
    {
      "name" : "test",
      "connector_id" : "4501a0d9fc474c4aa3a035580734a234",
      "connector_name" : "rds",
      "data_type" : "RDS",
      "description" : "is a test ",
      "ag_dataset_table" : {
        "db_schema" : "demo1",
        "table_name" : "dim_enterprise"
      },
      "columns" : [ {
        "column_name" : "credit_no",
        "data_type" : "STRING",
        "comments" : "企业号(企业社会信用代码)",
        "sql_col_privacy_type" : "NON_SENSITIVE",
        "privacy_policy" : "NONE"
      }, {
        "column_name" : "ent_name",
        "data_type" : "STRING",
        "comments" : "企业名称",
        "sql_col_privacy_type" : "NON_SENSITIVE",
        "privacy_policy" : "NONE"
      } ]
    }
  • 创建数据集(DWS)

    post https://100.1.1.1:31000/v1/agents/datasets
    
    {
      "name" : "test",
      "connector_id" : "57386dc0761b4e3bbaae5015bc0b1bbc",
      "connector_name" : "dws",
      "data_type" : "DWS",
      "description" : "",
      "ag_dataset_table" : {
        "db_schema" : "pmk",
        "table_name" : "pmk_configuration"
      },
      "columns" : [ {
        "column_name" : "config_param_name",
        "data_type" : "STRING",
        "comments" : "",
        "sql_col_privacy_type" : "NON_SENSITIVE",
        "privacy_policy" : "NONE"
      }, {
        "column_name" : "config_value",
        "data_type" : "STRING",
        "comments" : "",
        "sql_col_privacy_type" : "NON_SENSITIVE",
        "privacy_policy" : "NONE"
      } ]
    }

响应示例

状态码: 200

创建或更新数据集成功

{
  "id" : "9c8eb77a731b455cb4183d170fcfc8ff"
}

状态码

状态码

描述

200

创建或更新数据集成功

分享:

    相关文档

    相关产品