文档首页/ 推荐系统 RES/ API参考/ API/ 训练作业/ 新建多个训练作业
更新时间:2022-05-13 GMT+08:00
分享

新建多个训练作业

功能介绍

批量新建作业。

调试

您可以在API Explorer中调试该接口。

URI

POST /v2.0/{project_id}/workspaces/{workspace_id}/resources/{resource_id}/job-instances

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

项目id,获取方式请参见获取项目ID

resource_id

String

资源id

workspace_id

String

工作空间id

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

Content-Type

String

内容类型,包括application和json两种类型

X-Auth-Token

String

用户token,获取方式请参见获取用户Token

表3 请求Body参数

参数

是否必选

参数类型

描述

category

String

类别:

  • RECALL,召回作业

  • DATASOURCE,数据源作业

  • FILTER,过滤作业

  • SORTING,排序作业

  • EVALUATE,效果评估作业

description

String

描述

job_config

jobConfig object

作业配置

exec_config

ResExecConfig object

作业执行配置项(仅离线任务可提供此配置)

job_name

String

作业名称,1-64位字母、数字、下划线、中划线组合

job_type

String

作业类型:

  • WriteUserProfile,用户画像实时导入作业

  • WriteItemProfile,物品画像实时导入作业

  • UniversalProcess,行为数据实时导入作业

  • NearlineRecall,近线召回作业

  • EncodeProfile,近线特征工程作业

  • AttributeMatch,属性匹配召回作业

  • AlsCF,交替最小二乘协同过滤作业

  • BhvHistory,历史行为记忆召回作业

  • ItemCf,物品协同过滤召回作业

  • MenEdit,人工配置候选集作业

  • Ucb,UCB召回作业

  • UserCf,用户协同过滤召回作业

  • WeightBehavior,综合行为热度召回作业

  • Filter,历史行为过滤作业

  • AutoPreRank,智能ETL参数生成作业

  • ETL,离线特征工程作业

  • LR,LR作业

  • DEEPFM,DEEPFM作业

  • AutoGroup,AutoGroup作业

  • StreamRank,在线训练作业

  • DataStruct,识别数据结构作业

  • DataExploration,数据探索作业

  • DataImport,离线数据导入作业

  • Evaluate,效果评估作业

schedule

String

调度参数

表4 jobConfig

参数

是否必选

参数类型

描述

nearline_recall_param

NearLineRecallParam object

近线召回作业参数(近线召回作业需要提供此参数)。

max_recommended_num

Integer

最大候选集个数(所有召回作业需提供此参数)。

最小值:1

最大值:200

match_feature_pairs

Array of MatchFeaturePair objects

匹配特征对(属性匹配召回作业需要提供此参数)。

striping

Striping object

行条化策略(属性匹配召回作业、物品协同过滤召回作业、用户协同过滤召回作业需要提供此参数)。

match_type

String

匹配类型(属性匹配召回作业需提供此参数):

  • UI,基于用户推荐物品

  • UU,基于用户推荐用户

  • II,基于物品推荐物品

  • IU,基于物品推荐用户

matrix_factorization

MatrixFactorization object

矩阵分解参数配置(交替最小二乘协同过滤作业需提供此参数)。

behavior_frequencys

Array of BehaviorFrequency objects

行为频率信息(历史行为记忆召回作业、历史行为过滤作业需提供此参数)。

file_path

String

文件路径(人工配置候选集作业需要提供此参数)。

ucb_param

UcbParam object

UCB作业参数(UCB召回作业需要提供此参数)。

behavior_gravity

BehaviorGravity object

重力衰减因子(综合行为热度召回作业需要提供此参数)。

category

Category object

类别(综合行为热度召回作业需要提供此参数)。

behavior_logic

String

行为逻辑过滤(历史行为过滤作业需提供此参数):

  • AND,同时满足则过滤

  • OR, 满足一个则过滤

features_engineering

EtlBasicParameter object

特征参数(离线特征工程作业需要提供此参数)。

sample_param

SampleParam object

样本参数(离线特征工程作业需要提供此参数)。

deep_learning_parameters

DeepLearingParam object

排序作业通用参数(LR、DEEPFM、AutoGroup需要提供此参数)。

algorithm_specify_parameters

AlgorithmSpecifyParameters object

排序算法特定参数(LR、DEEPFM、AutoGroup需要提供此参数)。

load_widetable

Boolean

导入宽表(离线数据导入作业需要提供此参数)。

load_profile

Boolean

导入画像(离线数据导入作业需要提供此参数)。

save_mode

String

保留已有宽表(离线数据导入作业需要提供此参数):

  • append,是

  • new,否

  • overwirte,覆盖

indicators

Array of Indicator objects

统计指标(效果评估作业需要提供此参数)。

offline_rank_job_name

String

离线排序作业名称(在线训练任务需要提供此参数)。

update_interval

Integer

更新周期(在线训练任务需要提供此参数)。

optimizer

Optimizer object

优化器(在线训练任务需要提供此参数)。

flows

Flow object

在线流程(在线训练任务需要提供此参数)。

表5 NearLineRecallParam

参数

是否必选

参数类型

描述

time_limit

Boolean

时间过滤。

timeFeature

String

时间特征。

retainDays

Integer

保留期(天)。

recall_fileds

Array of RecallFiled objects

召回字段。

itemCF_job_name

String

物品协同过滤作业名称。

表6 RecallFiled

参数

是否必选

参数类型

描述

name

String

字段名称。

value

Integer

使用字段值的个数。

最小值:1

最大值:10

缺省值:1

表7 MatchFeaturePair

参数

是否必选

参数类型

描述

user_feature_name

String

用户特征。

item_feature_name

String

物品特征。

weight

Double

权重。

match_count

Boolean

匹配个数度量。

表8 Striping

参数

是否必选

参数类型

描述

nearest_neighborhood

Integer

最近领域个数。

band

Integer

相似程度。

最小值:1

最大值:20

row

Integer

相似距离。

最小值:1

最大值:10

表9 MatrixFactorization

参数

是否必选

参数类型

描述

implicit_vector_rank

Integer

隐向量维度。

最小值:1

最大值:100

regular_param

Double

优化正则化系数。

最小值:1.0E-8

最大值:1

max_iterator_num

Integer

迭代次数。

最小值:1

最大值:50

表10 BehaviorFrequency

参数

是否必选

参数类型

描述

behavior_type

String

行为类型:

  • view,曝光

  • click,点击

  • collect,收藏

  • uncollect,取消收藏

  • search_click,搜索后点击

  • comment,评论

  • share,分享

  • like,点赞

  • dislike,点衰

  • grade,评分

  • consume,消费

  • use,观看视频/听音乐/阅读

  • download,下载

  • tip,打赏

  • subscribe,关注

lower_limit

Integer

最小次数。

最小值:1

upper_limit

Integer

最大次数。

最小值:1

time_interval

Integer

时间区间。

最小值:1

表11 UcbParam

参数

是否必选

参数类型

描述

alpha

Double

折中参数。

最小值:0

最大值:1

min_used_num

Integer

最小行为次数。

最小值:30

最大值:1000

表12 BehaviorGravity

参数

是否必选

参数类型

描述

weaken_factor

Double

衰减因子。

最小值:0.1

最大值:5

view_type

String

行为次数统计方法:

  • pv,访问量

  • uv,独立访客

algo_type

String

算法类型:

  • normal,通用

  • time,时间

表13 Category

参数

是否必选

参数类型

描述

user_meta_list

Array of strings

用户特征。

item_meta_list

Array of strings

物品特征。

表14 EtlBasicParameter

参数

是否必选

参数类型

描述

user_features

Array of FeatureTransformation objects

用户特征。

item_features

Array of FeatureTransformation objects

物品特征。

rank_etl_filter

RankETLFilter object

过滤参数。

表15 FeatureTransformation

参数

是否必选

参数类型

描述

attr

Attribute object

特征。

discrete_method

String

离散方法:

  • equal_distance_discrete,等距离散

  • user_define_discrete,自定义离散

  • normalize,归一化

  • null,不离散

params

Object

具体处理参数。

表16 Attribute

参数

是否必选

参数类型

描述

name

String

名称。

data_type

String

数据类型。

other_uses

Array of strings

其他用途。

表17 RankETLFilter

参数

是否必选

参数类型

描述

filter_type

String

行为去重方式:

  • abs_weight,权重绝对值

  • date,日期

time_type

String

时间类型:

  • day,天

  • week,周

  • month,月

is_monday_first

Boolean

周一是否是第一天。

表18 SampleParam

参数

是否必选

参数类型

描述

divide_type

String

训练集测试集划分方式:

  • TIME,时间比例

  • RAMDOM,个数比例

train_rate

Double

训练数据占比。

最小值:0.01

最大值:1

test_rate

Double

测试数据占比。

最小值:0.01

最大值:1

表19 DeepLearingParam

参数

是否必选

参数类型

描述

initial_parameters

Initial object

初始化参数。

optimize_parameters

Optimizer object

优化参数。

regular_parameters

Regular object

正则化参数。

max_iterations

Integer

最大迭代轮数。

最小值:1

最大值:1000

early_stop_iterations

Integer

提前终止训练轮数。

最小值:1

最大值:1000

batch_size

Integer

批量大小。

最小值:1

dataset_split_parts

Integer

训练数据集切分数量。

最小值:1

最大值:10

restart_train

Boolean

重新训练。

表20 Initial

参数

是否必选

参数类型

描述

initial_method

String

初始化方法。

mean_value

Double

平均值。

最小值:-1

最大值:1

standard_deviation

Double

标准差。

最小值:0

最大值:1

min_value

Double

最小值。

最小值:-1

最大值:0

max_value

Double

最大值。

最小值:0

最大值:1

表21 Optimizer

参数

是否必选

参数类型

描述

type

String

优化器类型。

learning_rate

Double

学习率。

initial_accumulator_value

Double

初始梯度累加和。

最小值:0

最大值:1

lambda1

Double

L1正则项系数。

最小值:0

最大值:1

lambda2

Double

L2正则项系数。

最小值:0

最大值:1

epsilon

Double

数值稳定常量。

最小值:0

最大值:1

decay_rate

Double

衰减因子。

最小值:0

最大值:1

decay_steps

Double

衰减步长。

最小值:1

表22 Regular

参数

是否必选

参数类型

描述

l2_regularization

Double

L2正则项系数。

最小值:0

最大值:1

regular_loss_compute_mode

String

正则损失计算方式。

embed_l2_regularization

Double

隐向量层L2正则化系数。

最小值:0

最大值:1

wide_l2_regularization

Double

wide部分L2正则化系数。

最小值:0

最大值:1

structure_l2_regularization

Double

结构化部分L2正则化系数。

最小值:0

最大值:1

表23 AlgorithmSpecifyParameters

参数

是否必选

参数类型

描述

latent_vector_length

Integer

隐向量长度(DEEPFM需要提供此参数)。

最小值:1

最大值:100

architecture

Array of integers

神经网络结构(DEEPFM需要提供此参数)。

active_function

String

激活函数(DEEPFM需要提供此参数,AutoGroup需要提供此参数)。

value_keep_probability

Double

神经元值保留概率(DEEPFM需要提供此参数,AutoGroup需要提供此参数)。

最小值:0

最大值:1

embed_size

Array of integers

各阶隐向量长度(AutoGroup需要提供此参数)。

mlp_architecture

Array of integers

神经网络结构(AutoGroup需要提供此参数)。

max_order

Integer

最大交互阶数(AutoGroup需要提供此参数)。

hash_sizes

Array of integers

哈希长度(AutoGroup需要提供此参数)。

hash_compensation

Array of numbers

特征交互层惩罚项系数(AutoGroup需要提供此参数)。

use_wide_part

Boolean

使用线性部分(AutoGroup需要提供此参数)。

structure_optimizer

Optimizer object

优化器参数(AutoGroup需要提供此参数)。

merge_multi_hot

Boolean

融合多值特征(AutoGroup需要提供此参数)。

fix_structure

Boolean

固定哈希结构(AutoGroup需要提供此参数)。

表24 Indicator

参数

是否必选

参数类型

描述

indicator_name

String

指标名称:

  • clickPVRate,点击PV率

  • clickUVRate,点击UV率

  • customize,自定义

indicator_params

IndicatorParam object

指标参数(自定义指标需要提供)。

表25 IndicatorParam

参数

是否必选

参数类型

描述

customize_parameter

CustomizeParameter object

自定义参数。

customize_formula

CustomizeFormula object

自定义公式。

表26 CustomizeParameter

参数

是否必选

参数类型

描述

alias

String

别名。

behavior_type

String

行为类型。

threshold

Double

阈值。

最小值:0

最大值:1

deduplication

String

去重。

表27 CustomizeFormula

参数

是否必选

参数类型

描述

alias

String

别名。

formula

String

公式。

表28 Flow

参数

是否必选

参数类型

描述

flow_id

String

流程id。

attr_pair_rules_filter

Array of AttrPairRules objects

属性对过滤。

attr_pair_rules_reserve

Array of AttrPairRules objects

属性对保留。

deduplication_list

Array of Deduplication objects

属性去重。

attribute_info

AttributeInfo object

综合排序信息。

bloom_filter_conf

BloomFilterConf object

布隆过滤器配置。

group_attr

String

分组打散属性。

pre_deal

Boolean

在排序前去重。

rank_setting

String

排序配置信息。

rules

Rule object

候选集融合。

filter_sets

Array of strings

过滤配置信息。

attr_value_rules_filter

Array of AttrValueRules objects

属性值过滤。

attr_value_rules_reserve

Array of AttrValueRules objects

属性值保留。

ctr_job

String

排序作业(使用点击率预估时需要提供此参数)。

ratio

Integer

流量占比。

最小值:1

最大值:100

toppings

Array of strings

需要置顶的候选集列表。

表29 AttrPairRules

参数

是否必选

参数类型

描述

attr_pairs

Array of AttrPair objects

属性对。

表30 AttrPair

参数

是否必选

参数类型

描述

party_a

String

被推荐对象的属性名。

party_b

String

被推荐对象的属性名。

表31 Deduplication

参数

是否必选

参数类型

描述

attributes

Array of strings

属性。

表32 AttributeInfo

参数

是否必选

参数类型

描述

rank_feature_pairs

Array of RankFeaturePair objects

属性匹配对。

numerical_attrs

Array of NumericalAttr objects

属性权重。

num_statistics_type

String

统计方式:

  • ORDER,顺序

  • ABS,绝对值

表33 RankFeaturePair

参数

是否必选

参数类型

描述

feature_name_a

String

待推荐对象的属性。

feature_name_b

String

被推荐对象的属性。

weight

Float

权重。

最小值:0.01

最大值:1

表34 NumericalAttr

参数

是否必选

参数类型

描述

name

String

特征名。

weight

Float

权重。

最小值:0.001

最大值:1

表35 BloomFilterConf

参数

是否必选

参数类型

描述

behaviors

Array of strings

待过滤行为类型。

interval

Integer

过滤时间。

最小值:1

最大值:7

表36 Rule

参数

是否必选

参数类型

描述

table_name

String

候选集表名。

rule_ratio

Integer

规则占比。

最小值:1

最大值:100

priority

Integer

优先级。

最小值:1

最大值:10

表37 AttrValueRules

参数

是否必选

参数类型

描述

attr_values_a

Array of AttrValue objects

被推荐对象的属性-值配置。

attr_values_b

Array of AttrValue objects

待推荐对象的属性-值配置。

表38 AttrValue

参数

是否必选

参数类型

描述

name

String

属性名称。

value

String

属性值。

表39 ResExecConfig

参数

是否必选

参数类型

描述

spark_calc_spec

SparkCalcSpec object

spark自定义计算规格

spark_option_confs

Array of SparkOptionConf objects

spark可选配置项

表40 SparkCalcSpec

参数

是否必选

参数类型

描述

driver_memory

String

driver内存

driver_cores

Integer

driver核数

executor_memory

String

executor内存

executor_cores

Integer

executor核数

num_executors

Integer

executor个数

表41 SparkOptionConf

参数

是否必选

参数类型

描述

name

String

参数名称

value

String

参数值

响应参数

状态码: 200

表42 响应Body参数

参数

参数类型

描述

is_success

Boolean

请求是否成功

message

String

返回消息

error_code

String

错误码(请求成功时,不返回此字段)

请求示例

同时新建作业多个

/v2.0/testuuidxxxxxxxxxxxxxxxxxxxxxxxx/workspaces/testuuidxxxxxxxxxxxxxxxxxxxxxxxx/resources/testuuidxxxxxxxxxxxxxxxxxxxxxxxx/job-instances

[ {
  "job_name" : "WriteItemProfile-test",
  "description" : "item",
  "category" : "DATASOURCE",
  "job_type" : "WriteItemProfile",
  "job_config" : { }
}, {
  "job_name" : "EncodeProfile-test",
  "description" : "universal",
  "category" : "SORTING",
  "job_type" : "EncodeProfile",
  "job_config" : { }
} ]

响应示例

状态码: 200

OK

{
  "is_success" : true,
  "message" : "Succeed to new instance."
}

状态码

状态码

描述

200

OK

错误码

请参见错误码

相关文档