更新时间:2023-05-24 GMT+08:00
分享

提交数据质量作业API

功能介绍

该接口用于提交数据质量作业并进行离线计算。

URI

POST /v1/{project_id}/data-quality

参数说明请参见表1

表1 URI参数说明

名称

是否必选

类型

说明

project_id

String

项目编号,用于资源隔离。获取方法请参见获取项目ID

请求参数

请求参数参见表2

表2 请求参数说明

参数名称

是否必选

参数类型

说明

workspace_id

String

工作空间ID,默认为0

job_name

String

训练作业名称,最大长度为20字符。必须以DataQuality-开头。

job_description

String

训练作业描述,最大长度为256字符。

algorithm_type

String

算法类型

  • DATA_QUALITY_INSPECTION

algorithm_parameters

JSON

算法参数,每一种算法都有其特定的参数。

  • DATA_QUALITY_INSPECTION,请参见表7

data_source

List

算法数据源配置

  • DATA_QUALITY_INSPECTION,数据源选择通用模板数据,请参见表5

offline_platform

JSON

请参见表3,离线计算平台信息。

表3 offline_platform参数说明

参数名称

是否必选

参数类型

说明

platform

String

平台名称,最大长度64,支持DLI。

platform_parameter

JSON

请参见表4,平台参数。

computing_resource

String

指定DLI运行任务的资源规格。

config_load_path

String

读取配置源路径。

表4 platform_parameter参数说明

参数名称

是否必选

参数类型

说明

cluster_name

String

集群名称。

cluster_id

String

集群ID。

表5 data_source参数说明

参数名称

是否必选

参数类型

说明

table_type_id

String

推荐通用数据模板

  • 用户属性表USER_META
  • 物品属性表ITEM_META
  • 用户操作行为表USER_BEHAVIOR

数据格式请参见推荐系统离线数据源

通用格式

  • GENERAL_FORMAT

data_source_url

String

数据源路径,最大长度1000字符

data_format

String

输入数据格式,可选值:csv、parquet、json、orc。

data_param

JSON

请参见表6,数据格式是csv的时候必选,其他可选。

表6 data_param参数说明

参数名称

是否必选

参数类型

说明

header

Boolean

是否显示表头。

delimiter

String

分割符,最大长度10个字符。

quote

String

引用字符,最大长度10个字符。

escape

String

转义字符,最大长度10个字符。

表7 algorithm_parameters参数说明-DATA_QUALITY_INSPECTION算子

参数名称

是否必选

参数类型

说明

输出路径(result_path)

String

所有输出数据(错误数据以及错误信息)的存储路径,文件夹。

全局特征配置文件路径(global_features_information_path)

String

该文件为JSON格式,包含特征名、特征大类、特征值类型。全局特征文件详细内容可以通过查询全局特征配置获取。

响应消息

响应参数请参见表8

表8 响应参数说明

参数名称

参数类型

说明

job_name

String

作业名称。

job_id

String

作业的ID。

is_success

Boolean

请求是否成功。

error_message

String

请求失败时的错误信息,请求成功时无此字段。

error_code

String

请求失败时的错误码,请求成功时无此字段。

create_time

Long

作业的创建时间。

etl_uuid

String

候选集ID。

示例

  • 请求示例
    {
    	"job_name": "DataQuality-ll",
    	"job_description": "hhx test",
    	"algorithm_type": "DATA_QUALITY_INSPECTION",
    	"algorithm_parameters": {
    		"result_path": "<输出数据的存储都路径>",
    		"global_features_information_path": "<全局特征配置文件路径>"
    	},
    	"offline_platform": {
    		"platform": "DLI",
    		"platform_parameter": {
    			"cluster_name": "res_cluster"
    		},
    		"config_load_path": "<配置源路径>",
    		"computing_resource": ""
    	},
    "data_source": [{
    		"table_type_id": "USER_META",
    		"data_format": "csv",
    		"data_source_url": "<数据源存储路径>",
    		"data_param": {
    			"header": "false",
    			"delimiter": ",",
    			"quote": "\"",
    			"escape": "\\"
    		}
    	}, {
    		"table_type_id": "USER_META_CONF",
    		"data_format": "csv",
    		"data_source_url": "<数据源存储路径>",
    		"data_param": {
    			"header": "true",
    			"delimiter": ",",
    			"quote": "\"",
    			"escape": "\\"
    		}
    	}, {
    		"table_type_id": "ITEM_META",
    		"data_format": "csv",
    		"data_source_url": "<数据源存储路径>",
    		"data_param": {
    			"header": "false",
    			"delimiter": ",",
    			"quote": "\"",
    			"escape": "\\"
    		}
    	}, {
    		"table_type_id": "ITEM_META_CONF",
    		"data_format": "csv",
    		"data_source_url": "<数据源存储路径>",
    		"data_param": {
    			"header": "true",
    			"delimiter": ",",
    			"quote": "\"",
    			"escape": "\\"
    		}
    	}, {
    		"table_type_id": "USER_BEHAVIOR",
    		"data_format": "csv",
    		"data_source_url": "<数据源存储路径>",
    		"data_param": {
    			"header": "false",
    			"delimiter": ",",
    			"quote": "\"",
    			"escape": "\\"
    		}
    	}]
    }
  • 成功响应示例
    {
        "is_success": true,
        "job_id": "59c3a237731b4ebfbf561d765b04def7",
        "filter_uuid": "5efc448313fb4dbf95e1e6cc307b92d6"
    }
  • 失败响应示例
    {
    "is_success": false,
    "error_code": "res.2006",
    "error_msg": "The datasourceUrl(<数据源存储路径>) is not match Bucket structure."
    }

状态码

状态码请参见状态码

分享:

    相关文档

    相关产品