排序策略-离线排序模型

排序策略简介

排序策略用于训练排序模型，该模型将被用于对召回策略召回的候选集进行排序，以将推荐物品顺序调整到最优。

Logistic Regression (LR)

LR算法是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间，是机器学习领域里常用的二分类算法。

表1 逻辑斯蒂回归参数说明
参数名称	说明
名称	自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。
描述	对于该策略的描述信息。
最大迭代轮数	模型训练的最大迭代轮数，默认50。
提前终止训练轮数	在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。
初始化方法	模型参数的初始化方法。 normal：正态分布平均值：默认0 标准差：0.001 uniform ：均匀分布最小值：默认-0.001，均匀分布的最小值，必须小于最大值。最大值：默认0.001，均匀分布的最大值，必须大于最小值。 xavier：初始化初始值为均值为0，方差为 Var(wi)=1/nin 的均匀分布（高斯或者随机分布）。其中 nin 是该神经元的输入数目。
优化器类型	grad：梯度下降算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。 adam：自适应矩估计算法结合AdaGrad和RMSProp两种优化算法的优点，对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，依次计算出更新步长。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的，含大量稀疏特征的在线学习的常见优化算法。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。
L2正则项系数	叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。
正则损失计算方式	正则损失计算当前有两种方式。 full：指针对全量参数计算。 batch：则仅针对当前批数据中出现的参数计算说明： batch模式计算速度快于full模式。
重新训练	对第一次训练无影响，仅影响任务重跑。 “是”：清空上一轮的模型结果后重新开始训练。 “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。
批量大小	一次训练所选取的样本数。
训练数据集切分数量	将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。

DeepFM

DeepFM，结合了FM和深度神经网络对于特征表达的学习，同时学习高阶和低阶特征组合，从而达到准确地特征组合学习，进行精准推荐。

表2 深度网络因子分解机参数说明
参数名称	说明
名称	自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。
描述	对于该策略的描述信息。
最大迭代轮数	模型训练的最大迭代轮数，默认50。
提前终止训练轮数	在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。
初始化方法	模型参数的初始化方法。 normal：正态分布平均值：默认0 标准差：0.001 uniform ：均匀分布最小值：默认-0.001，均匀分布的最小值，必须小于最大值。最大值：默认0.001，均匀分布的最大值，必须大于最小值。 xavier：初始化初始值为均值为0，方差为 Var(wi)=1/nin 的均匀分布（高斯或者随机分布）。其中 nin 是该神经元的输入数目。
优化器类型	grad：梯度下降算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。 adam：自适应矩估计算法结合AdaGrad和RMSProp两种优化算法的优点，对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，依次计算出更新步长。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。
L2正则项系数	叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。
正则损失计算方式	正则损失计算当前有两种方式。 full：指针对全量参数计算。 batch：则仅针对当前批数据中出现的参数计算说明： batch模式计算速度快于full模式。
隐向量长度	分解后的表示特征的向量的长度。默认10。
神经网络结构	神经网络的层数与每一层的神经元节点个数。默认400,400,400。
激活函数	神经网络中的激活函数，将一个（或一组）神经元的值映射为一个输出值。 relu tanh sigmoid
神经元值保留概率	神经网络前向传播过程中以该概率保留神经元的值。默认0.8。
重新训练	对第一次训练无影响，仅影响任务重跑。 “是”：清空上一轮的模型结果后重新开始训练。 “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。
批量大小	一次训练所选取的样本数。
训练数据集切分数量	将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。

AutoGroup

AutoGroup，使用自动分组技术探索高阶特征交互组合，更深层次地挖掘出多个特征间联系，增强模型排序效果。

表3 AutoGroup参数说明
参数名称	说明
名称	自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。
描述	对于该策略的描述信息。
最大交互阶数	算法探索的最大的特征交互阶数。例如，当设定最大交互阶数为4时，算法会探索2阶、3阶、4阶的特征交互组合。默认3。
各阶隐向量长度	各阶特征交互使用的隐向量长度，数量需对应最大交互阶数。默认10,60,80。
哈希长度	每阶特征交互所选择的group数量，数量需对应最大交互阶数。默认10,60,80。
特征交互层惩罚项系数	特征交互层输出值的惩罚项系数，用来防止过拟合。默认0.0001,0.0001,0.0001。
神经网络结构	神经网络的层数与每一层的神经元节点个数。默认400,400,400。
激活函数	神经网络中的激活函数，将一个（或一组）神经元的值映射为一个输出值。 relu tanh sigmoid
神经元值保留概率	神经网络前向传播过程中以该概率保留神经元的值。默认0.8。
优化器类型	grad：梯度下降算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。 adam：自适应矩估计算法结合AdaGrad和RMSProp两种优化算法的优点，对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，依次计算出更新步长。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。
结构部分优化器	详细参数请参见优化器类型。
正则损失计算方式	正则损失计算当前有两种方式。 full：指针对全量参数计算。 batch：则仅针对当前批数据中出现的参数计算说明： batch模式计算速度快于full模式。
L2正则项系数	叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。
隐向量层L2正则化系数	隐向量层使用的L2正则化系数，作用如“L2正则项系数”描述。默认0.001。
wide部分L2正则化系数	wide层使用的L2正则化系数，作用如“L2正则项系数”描述。默认0.001。
最大迭代轮数	模型训练的最大迭代轮数，默认50。
提前终止训练轮数	在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。
重新训练	对第一次训练无影响，仅影响任务重跑。 “是”：清空上一轮的模型结果后重新开始训练。 “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。
批量大小	一次训练所选取的样本数。
训练数据集切分数量	将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。
融合多值特征	将多值特征的多个embedding融合成一个embedding。
融合线性部分	是否使用模型架构中的线性部分。
固定哈希结构	是否固定结构参数。默认值为“否”，非特殊情况建议使用默认值。

父主题： 算法介绍及参数说明

上一篇：排序策略-离线特征工程

下一篇：在线服务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

排序策略-离线排序模型

排序策略简介

Logistic Regression (LR)

DeepFM

AutoGroup

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线