更新时间:2022-04-25 GMT+08:00
分享

策略参数说明

RES支持多种策略,本章介绍召回策略(recall)、排序策略(sorting)。具体描述请参见表1 策略类型说明

特定行为热度推荐

表2 SpecificBehavior参数说明

参数名称

是否必选

参数类型

说明

data_source_config

JSON

请参见表3,数据源参数配置。

algorithm_config

JSON

算法参数配置。

candidate_set_config

JSON

请参见表4,候选集参数配置。

表3 data_source_config参数说明

参数名称

是否必选

参数类型

描述信息

behavior_type

String

行为类型。

  • view:物品曝光
  • click:用户点击物品
  • collect:用户收藏了某个物品
  • uncollect:用户取消收藏某个物品
  • search_click:用户点击搜索结果中的物品
  • comment:用户对物品的评论
  • share: 分享
  • like:点赞
  • dislike:点衰
  • grade:评分
  • consume:消费
  • use:观看视频/听音乐/阅读

start_time

与retain_day二选一

long

用户行为起始时间,与end_time共存。

end_time

与retain_day二选一

long

用户行为结束时间,与start_time共存。

retain_day

与start_time二选一

Integer

用户行为时间跨度,整数 [1,10000]。

表4 candidate_set_config参数说明

参数名称

是否必选

参数类型

描述信息

is_recommended_by_category

Boolean

按类别推荐(true/false)。

综合行为热度推荐

表5 BehaviorsWeight参数说明

参数名称

是否必选

参数类型

描述信息

data_source_config

JSON

请参见表6,数据源参数配置。

algorithm_config

JSON

算法参数配置。

candidate_set_config

JSON

请参见表8,候选集参数配置。

表6 data_source_config参数说明

参数名称

是否必选

参数类型

描述信息

behavior_weights

List

请参见表7,行为权重。

start_time

与retain_day二选一

long

用户行为起始时间。和end_time共存。

end_time

与retain_day二选一

long

用户行为结束时间。和start_time共存。

retain_day

与start_time二选一

Integer

用户行为时间跨度,整数 [1,10000]。

表7 behavior_weights参数说明

参数名称

是否必选

参数类型

说明

behavior_type

String

行为类型。

  • view:物品曝光
  • click:用户点击物品
  • collect:用户收藏了某个物品
  • uncollect:用户取消收藏某个物品
  • search_click:用户点击搜索结果中的物品
  • comment:用户对物品的评论
  • share: 分享
  • like:点赞
  • dislike:点衰
  • grade:评分
  • consume:消费
  • use:观看视频/听音乐/阅读

weight

Double

权重((0, 1] 数字,小数保留1位)。

表8 candidate_set_config参数说明

参数名称

是否必选

参数类型

说明

is_recommended_by_category

Boolean

按类别推荐(true/false)。

基于物品的协同过滤推荐

表9 ItemCF参数说明

参数名称

是否必选

参数类型

描述信息

data_source_config

JSON

请参见表10,数据源参数配置。

algorithm_config

JSON

请参见表11,算法参数配置。

candidate_set_config

JSON

请参见表12,候选集参数配置。

表10 data_source_config参数说明

参数名称

是否必选

参数类型

说明

retain_days

Integer

用户行为时间跨度,整数 [1,10000]。

behavior_weights

List

请参见表7(不包含uncollect和dislike),行为权重。

表11 algorithm_config参数说明

参数名称

是否必选

参数类型

说明

similar_metric

String

相似性度量方式('cosine')。

表12 candidate_set_config参数说明

参数名称

是否必选

参数类型

说明

max_recommended_num

Integer

最大推荐结果数,正整数[ 1,10000]。

基于用户的协同过滤推荐

表13 UserCF参数说明

参数名称

是否必选

参数类型

说明

data_source_config

JSON

请参见表14,数据源参数配置。

algorithm_config

JSON

请参见表15,算法参数配置。

candidate_set_config

JSON

请参见表16,候选集参数配置。

表14 data_source_config参数说明

参数名称

是否必选

参数类型

说明

retain_days

Integer

用户行为时间跨度,整数 [1,10000]。

behavior_weights

List

请参见表7(不包含uncollect和dislike),行为权重。

表15 algorithm_config参数说明

参数名称

是否必选

参数类型

说明

similar_metric

String

相似性度量方式(“cosine”)。

user_nn

Integer

用户最近邻域数,正整数 [1,100000000]。

表16 candidate_set_config参数说明

参数名称

是否必选

参数类型

说明

max_recommended_num

Integer

最大推荐结果数,正整数 [1,10000]。

基于交替最小二乘的矩阵分解推荐

表17 AlsCF参数说明

参数名称

是否必选

参数类型

说明

data_source_config

JSON

请参见表18,数据源参数配置。

algorithm_config

JSON

请参见表19,算法参数配置。

candidate_set_config

JSON

候选集参数配置。

表18 data_source_config参数说明

参数名称

是否必选

参数类型

说明

retain_days

Integer

用户行为时间跨度,整数[ 1,10000]。

behavior_weights

List

请参见表7,行为权重。

表19 algorithm_config参数说明

参数名称

是否必选

参数类型

说明

implicit_vector_rank

Integer

隐向量维度,整数[ 1,1000]。

max_iterator_num

Integer

最大迭代次数, 整数 [1,2000)。

regular_param

Double

正则化系数,大于0 小于等于1,小数最多保留8位)。

基于历史行为记忆生成候选集

表20 HistoryBehaviorMemory参数说明

参数名称

是否必选

参数类型

说明

data_source_config

JSON

请参见表21,数据源参数配置。

algorithm_config

JSON

请参见表22,算法参数配置。

candidate_set_config

JSON

候选集参数配置。

表21 data_source_config参数说明

参数名称

是否必选

参数类型

说明

retain_days

Integer

用户行为时间跨度 ,整数 [1,10000]。

表22 algorithm_config参数说明

参数名称

是否必选

参数类型

说明

history_behavior_memories

List

请参见表23,历史行为记忆。

表23 his_behavior_memos参数说明

参数名称

是否必选

参数类型

说明

behavior_type

String

行为类型。

  • view:物品曝光
  • click:用户点击物品
  • collect:用户收藏了某个物品
  • uncollect:用户取消收藏某个物品
  • search_click:用户点击搜索结果中的物品
  • comment:用户对物品的评论
  • share: 分享
  • like:点赞
  • dislike:点衰
  • grade:评分
  • consume:消费
  • use:观看视频/听音乐/阅读

least_intension

Integer

最低强度,整数[1,100]。

人工录入生成候选集

表24 ManualInput参数说明

参数名称

是否必选

参数类型

说明

data_source_config

JSON

数据源参数配置。

algorithm_config

JSON

请参见表25,算法参数配置。

candidate_set_config

JSON

候选集参数配置。

表25 algorithm_config参数说明

参数名称

是否必选

参数类型

说明

obs_address

String

人工录入候选集地址obs地址,格式为xx//xxx , //后边不能包含.[^?*<>|\":]等特殊字符,最大长度256字符。

基于属性匹配的召回策略

表26 BehaviorsWeight参数说明

参数名称

是否必选

参数类型

说明

portrait_storage

JSON

请参见表27,用户画像,物品画像的存储信息。

global_features_information_path

String

全局特征信息文件。

match_feature_pairs

List

请参见表30,待匹配特征对。

recommended_number

Integer

输出的推荐个数【1~1000】。

row

Integer

行数。

band

Integer

条数。

表27 portrait_storage参数说明

参数名称

是否必选

参数类型

说明

item_profile_storage

JSON

请参见表28,用户画像存储信息。

user_profile_storage

JSON

请参见表28,用户画像存储信息。

表28 item_profile_storage、user_profile_storage参数说明

参数名称

是否必选

参数类型

说明

platform

String

平台名称,现支持CloudTable。

platform_parameter

JSON

请参见表29,数据存储参数。

表29 platform_parameter 参数说明

参数名称

是否必选

参数类型

说明

cluster_id

String

集群ID。

table_name

String

表名称,最大长度64字符。

cluster_name

String

集群名称。

表30 match_feature_pairs参数说明

参数名称

是否必选

参数类型

说明

user_feature_name

String

用户特征。

item_feature_name

String

物品特征。

alias

String

别名。

weight

String

权重值,默认为1。

逻辑斯蒂回归

表31 algorithm_parameters参数说明

参数名称

是否必选

参数类型

说明

fields_feature_size_path

String

该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,文件路径为用户在排序数据预处理中输入的结果保存路径参数表示的路径的“fields_feature_size”目录下,文件名称为“part-00000”,需要用户提供文件完整路径。

max_iterations

Int

模型训练的最大迭代轮数。取值范围[1,1000]。

early_stop_iterations

Int

在测试集上连续early_stop_iterations轮迭代的AUC小于当前最优AUC时,迭代停止,训练结束。取值范围[1,1000],不大于max_iterations。

initial_parameters

JSON

请参见表32,初始化相关参数。

示例:

{

“initial_method”:“normal”,“mean_value”: 0, “standard_deviation”:0.001

}

optimize_parameters

JSON

请参见表33,优化策略相关参数。

示例:

{

“type”:“adam”,

“epsilon”:1e-08,

“learning_rate”:0.001

}

regular_parameters

JSON

请参见表34,正则相关参数。

示例:

{

"l2_regularization":0.001,

"regular_loss_compute_mode":"full"

}

algorithm_specify_parameters

JSON

-

表32 initial_parameters 参数说明

参数名称

是否必选

参数类型

说明

正态分布(normal)

平均值(mean_value)

Double

正态分布的平均值。取值范围[-1,1],默认值为0。

标准差(standard_deviation)

Double

正态分布的标准差。取值范围[0, 1],默认值为0.001。

均匀分布(uniform)

最小值(min_value)

Double

均匀分布的最小值,

必须小于最大值。取值范围[-1, 0),默认值为-0.001。

最大值(max_value)

Double

均匀分布的最大值,

必须大于最小值。取值范围(0,1],默认值为0.001。

xavier

神经元的初始值权重初始化为均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。

表33 optimize_parameters 参数说明

参数名称

是否必选

参数类型

说明

梯度下降(grad)

学习率(learning_rate)

Double

决定优化器在优化方向上前进步长的参数。取值范围(0,1],默认值为0.001。

自适应梯度(adagrad)

初始梯度累加和

(initial_accumulator_value)

Double

用来动态调整学习步长。取值范围(0,1],默认值为0.1。

学习率(learning_rate)

Double

决定优化器在优化方向上前进步长的参数。取值范围(0,1],默认值为0.001。

自适应矩估计(adam)

数值稳定常量(epsilon)

Double

为保证数值稳定而设置的一个微小常量。取值范围(0,1],默认值为1.00E-08。

学习率(learning_rate)

Double

决定优化器在优化方向上前进步长的参数。取值范围(0,1],默认值为0.001。

在线学习(ftrl)

初始梯度累加和

(initial_accumulator_value)

Double

用来动态调整学习步长。取值范围(0,1],默认值为0.1。

L1正则项系数(lambda1)

Double

叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。

L2正则项系数(lambda2)

Double

叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。

学习率(learning_rate)

Double

决定优化器在优化方向上前进步长的参数。取值范围(0,1],默认值为0.1。

表34 regular_parameters参数说明

参数名称

是否必选

参数类型

说明

L2正则项系数

(l2_regularization)

Double

叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。取值范围[0,1],默认值为0。

正则损失计算方式

(regular_loss_compute_mode)

enum

full指针对全量参数计算,batch则仅针对当前批数据中出现的参数计算,batch模式计算速度快于full模式。默认full。

因子分解机

表35 algorithm_parameters参数说明

参数名称

是否必选

参数类型

说明

fields_feature_size_path

String

该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,文件路径为用户在数据处理中输入的“run_path”参数表示的路径的“fields_feature_size”目录下,文件名称为“part-00000”,需要用户提供文件完整路径。

max_iterations

Int

模型训练的最大迭代轮数。取值范围[1,1000]。

early_stop_iterations

Int

在测试集上连续early_stop_iterations轮迭代的AUC小于当前最优AUC时,迭代停止,训练结束。取值范围[1,1000],不大于max_iterations。

algorithm_specify_parameters

JSON

请参见表36,算法相关参数。

示例:

{

“latent_vector_length”:10

}

initial_parameters

JSON

请参见表32,初始化相关参数。

示例:

{

“initial_method”:“normal”,

“mean_value”: 0.0, “standard_deviation”:0.001

}

optimize_parameters

JSON

请参见表33,优化策略相关参数。

示例:

{

“type”:“adam”,

“epsilon”:1e-08,

“learning_rate”:0.001

}

regular_parameters

JSON

请参见表34,正则相关参数。

示例:

{

"l2_regularization":0.001,

"regular_loss_compute_mode":"full"

}

表36 algorithm_specify_parameters 取值说明

参数名称

是否必选

参数类型

说明

隐向量长度(latent_vector_length)

Int

分解后的特征向量的长度。取值范围[1,1000],默认值10。

域感知因子分解机

algorithm_parameters参数说明请参见因子分解机

深度网络因子分解机

表37 algorithm_parameters参数说明

参数名称

是否必选

参数类型

说明

fields_feature_size_path

String

该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,文件路径为用户在数据处理中输入的“run_path”参数表示的路径的“fields_feature_size”目录下,文件名称为“part-00000”,需要用户提供文件完整路径。

max_iterations

Int

模型训练的最大迭代轮数。取值范围[1,1000]

early_stop_iterations

Int

在测试集上连续early_stop_iterations轮迭代的AUC小于当前最优AUC时,迭代停止,训练结束。取值范围[1,1000],不大于max_iterations。

algorithm_specify_parameters

JSON

请参见表38,算法相关参数。

示例:

{

“latent_vector_length”:10,

“architecture”:[400,400,400],

“value_keep_probability”: 0.8,

“active_function”:“reul”

}

initial_parameters

JSON

请参见表32,初始化相关参数。

示例:

{

“initial_method”:“normal”,

“mean_value”: 0.0, “standard_deviation”:0.001

}

optimize_parameters

JSON

请参见表33,优化策略相关参数。

示例:

{

“type”:“adam”,

“epsilon”:1e-08,

“learning_rate”:0.001

}

regular_parameters

JSON

请参见表34,正则相关参数。

示例:

{

"l2_regularization":0.001,

"regular_loss_compute_mode":"full"

}

表38 algorithm_specify_parameters 取值说明

参数名称

是否必选

参数类型

说明

隐向量长度

(latent_vector_length)

Int

分解后的特征向量的长度。取值范围[1,100],默认10。

神经网络结构

(architecture)

List[Int]

神经网络的层数与每一层神经元节点个数。每一层神经元节点数不大于5000,神经网络层数不大于10。默认为400,400,400。

神经元值保留概率

(value_keep_probability)

Double

神经网络前向传播过程中以该概率保留神经元的值。取值范围(0,1],默认0.8。

激活函数

(active_function)

Enum

将一个(或一组)神经元的值映射为一个输出值。取值为relu/sigmoid/tanh,默认relu。

核函数特征交互神经网络

表39 algorithm_parameters参数说明

参数名称

是否必选

参数类型

说明

fields_feature_size_path

String

该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,文件路径为用户在数据处理中输入的“run_path”参数表示的路径的“fields_feature_size”目录下,文件名称为“part-00000”,需要用户提供文件完整路径。

max_iterations

Int

模型训练的最大迭代轮数。取值范围[1,1000],默认50。

early_stop_iterations

Int

在测试集上连续early_stop_iterations轮迭代的AUC小于当前最优AUC时,迭代停止,训练结束。取值范围[1,1000],不大于max_iterations,默认5。

algorithm_specify_parameters

JSON

请参见表40,算法相关参数。

示例:

{

"latent_vector_length":10,

"active_function":"relu",

"architecture":[400,400,400],

"value_keep_probability":0.8,

"sub_net_architecture":[40,5],

"is_drop_fm":"False"

}

initial_parameters

JSON

请参见表32,初始化相关参数。

示例:

{

“initial_method”:“xavier”

}

optimize_parameters

JSON

请参见表33,优化策略相关参数。

示例:

{

“type”:“adam”,

“epsilon”:1e-08,

“learning_rate”:0.001

}

regular_parameters

JSON

请参见表34,正则相关参数。

示例:

{

"l2_regularization":0.001,

"regular_loss_compute_mode":"full"

}

表40 algorithm_specify_parameters 取值说明

参数名称

是否必选

参数类型

说明

隐向量长度

(latent_vector_length)

Int

分解后的特征向量的长度。取值范围[1,100],默认10。

神经网络结构

(architecture)

List[Int]

神经网络的层数与每一层神经元节点个数。每一层神经元节点数取值范围为[1,1000],神经网络层数不大于5。默认400,400,400。

神经元值保留概率

(value_keep_probability)

Double

神经网络前向传播过程中以该概率保留神经元的值。取值范围(0,1],默认0.8。

激活函数

(active_function)

Enum

将一个(或一组)神经元的值映射为一个输出值。取值relu/sigmoid/tanh,默认relu。

子网络结构

(sub_net_architecture)

List[Int]

特征向量之间使用神经网络核来计算相互关系时,该神经网络的结构。每一层的节点数取值范围为[1,100],深度不超过5层。默认40,5。

是否移除因子分解机

(is_drop_fm)

Boolean

是否移除模型架构中的因子分解机部分,值为True则蜕变为带有核函数的DNN。取值true/false,默认false。

分享:

    相关文档

    相关产品

close