更新时间:2023-05-24 GMT+08:00
分享

提交流式训练作业

功能介绍

该接口用于提交流式训练作业。

URI

POST /v1/{project_id}/stream-etl-job

参数说明请参见表1

表1 URI参数说明

名称

是否必选

类型

说明

project_id

String

项目编号,用于资源隔离。获取方法请参见获取项目ID

请求消息

请求参数请参见表2

表2 请求参数说明

参数名称

是否必选

参数类型

描述信息

workspace_id

String

工作空间ID,默认为0。

job_name

String

训练作业名称,最大长度为20字符。

job_description

String

训练作业描述,最大长度为256字符。

nearline_platform

JSON

请参见表3,近线计算平台。

strategy

JSON

请参见表5,策略信息。

表3 nearline_platform 参数说明

参数名称

是否必选

参数类型

说明

platform

String

平台名称,最大长度64字符,支持DLI。

platform_parameter

JSON

请参见表4,平台参数。

computing_resource

String

指定DLI运行任务的资源规格。

config_load_path

String

所选配置生成的文件在OBS上的存储路径。

表4 platform_parameter 参数说明

参数名称

是否必选

参数类型

说明

cluster_name

String

集群名称。

cluster_id

String

集群ID。

表5 strategy 参数说明

参数名称

是否必选

参数类型

说明

strategy_type

String

可选值:nearline。

name

String

策略别名,最大长度60字符。

algorithm_type

String

算法类型。现仅提供一种字段。

NEARLINE_ONLINE_TRAINING

parameter

JSON

请参见表6,算法参数。

表6 parameter 参数说明

参数名称

是否必选

参数类型

说明

data_source

JSON

请参见表7,数据源参数。

实时流近线任务支持的推荐标准数据为用户操作行为表

data_source_config

JSON

请参见表10,数据源参数配置。

algorithm_config

JSON

请参见表11,算法参数配置。

表7 data_source 参数说明

参数名称

是否必选

参数类型

说明

platform

String

平台名称,现在只支持DIS。将实时近线任务需要的数据添加到DIS中,推荐系统通过读取该数据进行近线计算。

in_stream_conf

JSON

请参见表8,平台参数。

out_stream_conf

JSON

请参见表9,平台参数。

表8 in_stream_conf 参数说明

参数名称

是否必选

参数类型

说明

stream_name

String

输入流DIS通道名称。该通道用于接收近线行为数据。

starting_offsets

String

读取DIS数据的起始位置。

  • LATEST:从最新的数据开始读取。
  • EARLIEST:从最旧的数据开始读取。
表9 out_stream_conf 参数说明

参数名称

是否必选

参数类型

说明

stream_name

String

输出流DIS通道名称。该通道用于存放由行为数据和画像库计算生成的排序预处理数据,以供模型训练。通道中的数据属于流式训练作业产生的中间数据,使用者只需指定通道名称,无需往该通道发送或获取数据。

starting_offsets

String

读取DIS数据的起始位置,LATEST表示从最新的数据开始读取。

表10 data_source_config 参数说明

参数名称

是否必选

参数类型

说明

interval

Integer

近线策略流处理的窗口时间,单位为秒,10代表每隔10s进行一次。包括数据读取和处理的流计算。

表11 algorithm_config 参数说明

参数名称

是否必选

参数类型

说明

online_job_uuid

String

关联的在线服务的uuid。

flow_name

String

关联在线服务的其中一个在线流程的名称。流式训练作业所需的行为参数、模型文件路径、数据预处理信息等参数会从指定的在线服务的在线流程中获取。

online_training_config

JSON

请参见表12,平台参数。

bad_record_log

String

异常数据记录日志路径。路径填写到文件夹。

表12 online_training_config 参数说明

参数名称

是否必选

参数类型

说明

spec_id

Integer

训练作业选择的资源规格ID。在使用ModelArts之前需要查询ModelArts服务AK/SK并确保关联AK/SK到ModelArts服务,然后通过查询ModelArts计算节点规格获取spec_id返回的值。

optimize_parameters

JSON

请参见表13,平台参数。

update_interval

Integer

排序模型的更新时间间隔,单位为分钟,例如10代表每隔10分钟保存一次排序模型到OBS,以供在线服务使用。

表13 optimize_parameters 参数说明

参数名称

是否必选

参数类型

说明

type

String

优化器类型。现仅提供一种字段。

  • ftrl:指定为使用ftrl优化器。

initial_accumulator_value

Double

用来动态调整学习步长。取值范围(0,1],默认值为0.1。

lambda1

Double

叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。

lambda2

Double

叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。

learning_rate

Double

决定优化器在优化方向上前进步长的参数。取值范围(0,1],默认值为0.1。

响应消息

响应参数请参见表14

表14 响应参数说明

参数名称

是否必选

参数类型

说明

is_success

Boolean

是否成功。

nearline_uuid

String

候选集ID。

job_id

String

作业ID。

示例

  • 请求示例
    {
    	"job_name": "Nearline-update",
    	"job_description": "",
    	"nearline_platform": {
    		"platform": "DLI",
    		"platform_parameter": {
    			"cluster_name": "dli-1"
    		},
    		"config_load_path": "<配置生成的文件在OBS上的存储路径>",
    		"computing_resource": ""
    	},
    	"storage": {
    		"user_profile_storage": {
    			"platform": "CloudTable",
    			"platform_parameter": {
    				"cluster_id": "96219587-3bb2-4eed-a8d0-0cda6dc50223",
    				"cluster_name": "cloudtable-62d2",
    				"table_name": "write-profile-user"
    			}
    		},
    		"item_profile_storage": {
    			"platform": "CloudTable",
    			"platform_parameter": {
    				"cluster_id": "96219587-3bb2-4eed-a8d0-0cda6dc50223",
    				"cluster_name": "cloudtable-62d2",
    				"table_name": "write-profile-item"
    			}
    		},
    		"filter_set_storage": {
    			"platform": "CloudTable",
    			"platform_parameter": {
    				"cluster_id": "96219587-3bb2-4eed-a8d0-0cda6dc50223",
    				"cluster_name": "cloudtable-62d2",
    				"table_name": "write-profile-filter"
    			}
    		}
    	},
    	"strategy": {
    		"name": "基于行为数据的用户画像更新",
    		"algorithm_type": "NEARLINE_UPDATE_USER_PORTRAIT",
    		"strategy_type": "nearline",
    		"parameter": {
    			"data_source_config": {
    				"behavior_type": ["view", "click", "collect", "uncollect", "search_click", "comment", "share", "like", "dislike", "grade", "consume", "use"],
    				"interval": "10"
    			},
    			"data_source": {
    				"platform": "DIS",
    				"platform_parameter": {
    					"stream_name": "dis-evan",
    					"starting_offsets": "latest"
    				}
    			},
    			"algorithm_config": {
    				"update_context": true,
    				"update_item_hotvalue_flag": true,
    				"filter_history_flag": true,
    				"max_history_num": 100,
    				"result_path": "<实时数据样本保存路径>",
    	                        "global_features_information_path":"<全局配置表路径>",
    				"bad_record_log":"<异常数据记录日志路径>"
    			}
    		}
    	}
    }
  • 成功响应示例
    {
        "is_success": true,
        "job_id": "cdf49df766f2499586685b08212fd03f",
        "nearline_uuid": "61496485f0ba4a77b02b4f66f3c11078"
    }
  • 失败响应示例
    {
        "is_success": false,
        "error_code": "res.1008",
        "error_msg": "The request parameter(job_name) is null."
    }

状态码

状态码请参见状态码

分享:

    相关文档

    相关产品