更新时间:2024-04-17 GMT+08:00
分享

排序策略-离线特征工程

表1 特征工程参数说明

参数名称

说明

名称

自定义离线特征工程名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

对于特征工程的描述信息。

待提取用户特征

排序模型需要经特征工程处理后的数据, 选择排序模型需要的用户特征, 未选择的用户特征将不会被处理,即排序模块将忽略这些特征。

说明:

离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。

单击,增加用户特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”“多值枚举型”时,您可以根据需求自定义枚举个数。其他类型可选的参数信息如下:

  • “等距离散”:根据业务需求限定数值“最小值”“最大值”“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。
  • “归一化”:归一化,根据业务需求限定数值“最小值”“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。
  • “用户自定义离散”:根据业务需求限定“离散点”。例如,根据age进行离散,设置年龄离散点分别为3、9、15即年龄会按照0-3、3-9、9-15进行散;单击添加离散点。
  • “不离散”:(默认)不做归一化,不对数据做处理。

待提取物品特征

排序模型需要经特征工程处理后的数据, 选择排序模型需要的物品特征,未选择的物品特征将不会被处理,即排序模块将忽略这些特征。

说明:

离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。

单击,增加物品特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”“多值枚举型”时,您可以根据需求自定义枚举个数。其他类型可选的参数信息如下:

  • “等距离散”:根据业务需求限定数值“最小值”“最大值”“距离”。例如,根据order_price进行等距离散,设置价格最小值为1,最大值为100,离散距离为10。那么等距离散会按照价格将1-10元,11-20元等为一个区间进行离散。
  • “归一化”:归一化,根据业务需求限定数值“最小值”“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。
  • “用户自定义离散”:根据业务需求限定“离散点”。例如,根据order_price进行离散,设置价格离散点分别为150、200、250即价格会按照0-150、151-200、201-250进行散;单击添加离散点。
  • “不离散”:(默认)不做归一化,不对数据做处理。

自定义行为类型

如果开启“自定义行为类型”, 算法则按用户设置的行为类型及权重进行排序预处理任务否则默认使用数据源中的行为类型及权重进行任务。

  • “正向行为类型”:设置正向行为的类型及权重值。
  • “负向行为类型”:设置负向行为的类型及权重值。

行为去重方式

将行为数据中某个用户对某个物品的多条记录进行去重,目前支持按行为权重去重(正向行为且权重越大的优先)和按时间去重(每天、每星期、每个月保留一条数据)。

  • “权重绝对值”:保留行为权重绝对值最高的一条数据。
  • “日期”:按照"时间类型", 保留指定区间的一条最新数据。

时间类型

将行为数据中某个用户对某个物品的多条记录进行去重, 只保留每个时间区间内的一条最新数据。您可以根据数据实际情况选择去重的时间周期,可选天、周、月。默认为“天”

周一是第一天:行为数据按周去重,是否周一是第一天。 如果选择否, 则认为周日是第一天,保留每个时间区间内的一条最新数据。

训练集测试集划分方式

数据划分方式按时间比例或个数比例划分训练集测试集。

  • “时间比例”:将全部数据的时间跨度按照时间比例划分成两段数据,训练数据为前一段时间中的数据,测试数据为后一段时间的数据,取值TIME。
  • “个数比例”:个数比例是将全部数据按个数比例随机划分成训练集和测试集传入值。取值RAMDOM。

训练数据占比

生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。

测试数据占比

生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “选择时间”:当 调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “具体时间”:选择具体的调度时间。

相关文档