提交流式训练作业
功能介绍
该接口用于提交流式训练作业。
请求消息
请求参数请参见表2。
参数名称 |
是否必选 |
参数类型 |
描述信息 |
---|---|---|---|
workspace_id |
否 |
String |
工作空间ID,默认为0。 |
job_name |
是 |
String |
训练作业名称,最大长度为20字符。 |
job_description |
否 |
String |
训练作业描述,最大长度为256字符。 |
nearline_platform |
是 |
JSON |
请参见表3,近线计算平台。 |
strategy |
是 |
JSON |
请参见表5,策略信息。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
platform |
是 |
String |
平台名称,最大长度64字符,支持DLI。 |
platform_parameter |
是 |
JSON |
请参见表4,平台参数。 |
computing_resource |
否 |
String |
指定DLI运行任务的资源规格。 |
config_load_path |
是 |
String |
所选配置生成的文件在OBS上的存储路径。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
strategy_type |
是 |
String |
可选值:nearline。 |
name |
是 |
String |
策略别名,最大长度60字符。 |
algorithm_type |
是 |
String |
算法类型。现仅提供一种字段。 NEARLINE_ONLINE_TRAINING |
parameter |
是 |
JSON |
请参见表6,算法参数。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
data_source |
是 |
JSON |
请参见表7,数据源参数。 实时流近线任务支持的推荐标准数据为用户操作行为表。 |
data_source_config |
是 |
JSON |
请参见表10,数据源参数配置。 |
algorithm_config |
是 |
JSON |
请参见表11,算法参数配置。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
platform |
是 |
String |
平台名称,现在只支持DIS。将实时近线任务需要的数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 |
in_stream_conf |
是 |
JSON |
请参见表8,平台参数。 |
out_stream_conf |
是 |
JSON |
请参见表9,平台参数。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
stream_name |
否 |
String |
输入流DIS通道名称。该通道用于接收近线行为数据。 |
starting_offsets |
是 |
String |
读取DIS数据的起始位置。
|
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
stream_name |
否 |
String |
输出流DIS通道名称。该通道用于存放由行为数据和画像库计算生成的排序预处理数据,以供模型训练。通道中的数据属于流式训练作业产生的中间数据,使用者只需指定通道名称,无需往该通道发送或获取数据。 |
starting_offsets |
是 |
String |
读取DIS数据的起始位置,LATEST表示从最新的数据开始读取。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
interval |
是 |
Integer |
近线策略流处理的窗口时间,单位为秒,10代表每隔10s进行一次。包括数据读取和处理的流计算。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
online_job_uuid |
是 |
String |
关联的在线服务的uuid。 |
flow_name |
是 |
String |
关联在线服务的其中一个在线流程的名称。流式训练作业所需的行为参数、模型文件路径、数据预处理信息等参数会从指定的在线服务的在线流程中获取。 |
online_training_config |
是 |
JSON |
请参见表12,平台参数。 |
bad_record_log |
否 |
String |
异常数据记录日志路径。路径填写到文件夹。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
spec_id |
是 |
Integer |
训练作业选择的资源规格ID。在使用ModelArts之前需要查询ModelArts服务AK/SK并确保关联AK/SK到ModelArts服务,然后通过查询ModelArts计算节点规格获取spec_id返回的值。 |
optimize_parameters |
是 |
JSON |
请参见表13,平台参数。 |
update_interval |
是 |
Integer |
排序模型的更新时间间隔,单位为分钟,例如10代表每隔10分钟保存一次排序模型到OBS,以供在线服务使用。 |
参数名称 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
type |
是 |
String |
优化器类型。现仅提供一种字段。
|
initial_accumulator_value |
是 |
Double |
用来动态调整学习步长。取值范围(0,1],默认值为0.1。 |
lambda1 |
是 |
Double |
叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。 |
lambda2 |
是 |
Double |
叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。 |
learning_rate |
是 |
Double |
决定优化器在优化方向上前进步长的参数。取值范围(0,1],默认值为0.1。 |
响应消息
响应参数请参见表14。
示例
- 请求示例
{ "job_name": "Nearline-update", "job_description": "", "nearline_platform": { "platform": "DLI", "platform_parameter": { "cluster_name": "dli-1" }, "config_load_path": "<配置生成的文件在OBS上的存储路径>", "computing_resource": "" }, "storage": { "user_profile_storage": { "platform": "CloudTable", "platform_parameter": { "cluster_id": "96219587-3bb2-4eed-a8d0-0cda6dc50223", "cluster_name": "cloudtable-62d2", "table_name": "write-profile-user" } }, "item_profile_storage": { "platform": "CloudTable", "platform_parameter": { "cluster_id": "96219587-3bb2-4eed-a8d0-0cda6dc50223", "cluster_name": "cloudtable-62d2", "table_name": "write-profile-item" } }, "filter_set_storage": { "platform": "CloudTable", "platform_parameter": { "cluster_id": "96219587-3bb2-4eed-a8d0-0cda6dc50223", "cluster_name": "cloudtable-62d2", "table_name": "write-profile-filter" } } }, "strategy": { "name": "基于行为数据的用户画像更新", "algorithm_type": "NEARLINE_UPDATE_USER_PORTRAIT", "strategy_type": "nearline", "parameter": { "data_source_config": { "behavior_type": ["view", "click", "collect", "uncollect", "search_click", "comment", "share", "like", "dislike", "grade", "consume", "use"], "interval": "10" }, "data_source": { "platform": "DIS", "platform_parameter": { "stream_name": "dis-evan", "starting_offsets": "latest" } }, "algorithm_config": { "update_context": true, "update_item_hotvalue_flag": true, "filter_history_flag": true, "max_history_num": 100, "result_path": "<实时数据样本保存路径>", "global_features_information_path":"<全局配置表路径>", "bad_record_log":"<异常数据记录日志路径>" } } } }
- 成功响应示例
{ "is_success": true, "job_id": "cdf49df766f2499586685b08212fd03f", "nearline_uuid": "61496485f0ba4a77b02b4f66f3c11078" }
- 失败响应示例
{ "is_success": false, "error_code": "res.1008", "error_msg": "The request parameter(job_name) is null." }
状态码
状态码请参见状态码。