更新时间:2024-04-17 GMT+08:00
分享

召回策略

召回是指对大量的物品做初选,为每一个用户形成个性化侯选集。召回策略是指通过大数据计算或深度训练生成推荐候选集的算法策略。召回策略中内置了多种召回方式,您可根据自己场景选择。

基于综合行为热度推荐

基于综合行为热度推荐统计用户对物品所有行为的加权热度。如果选择用户分群,将生成每个分组的热度推荐;如果不选择,将生成全局热度推荐。
表1 基于综合行为热度推参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

行为次数统计方法

物品记录统计方式。

  • “pv”:page view,每个用户可对同个物品产生多条记录。
  • “uv”:unique visitor,每个用户只能对每个物品产生一条记录, 算法只保留权重最大的记录。

用户分群

数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出需要的属性。只能选择进行用户分组还是物品分组,分组内可配置多个特征。

  • “用户特征”:在用户特征下拉框中选择需要的特征参数进行召回计算。例" user_meta_list ": ["gender","age"]
  • “物品特征”:在物品户特征下拉框中选择需要的特征参数进行召回计算。例" item_meta_list ": ["weight","score"]

最大推荐结果数

每个用户最多生成多少个推荐结果。

开启时间跨度

不开启取全部数据,开启则指定从数据源中取最近天数或小时数的行为数据计算相似度。

时间单位

开启时间跨度后,支持按照天或者小时为单位从指定从数据源中取行为数据计算相似度。

时间跨度

用于指定从数据源中取最近多少天或者多少小时的行为数据计算热度。默认取全部数据。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

基于物品的协同过滤推荐

基于物品的协同过滤推荐采用经典推荐算法基于物品的协同过滤ItemCF进行召回。
表2 基于物品的协同过滤推荐参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

最近邻域数

在ItemCF算法中使用,生成的相似度矩阵中为每个物品保留的若干个最相似物品。默认100。

用户活跃度

用来过滤用户的活跃度阈值。

取值范围:1-10000。

默认值:1。

效用阈值

用户对物品综合打分的阈值。

取值范围:0.000001-10。

最小交叉度

物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。

默认值:1。

最大推荐结果数

最多生成多少个推荐结果。

默认值:100。

开启时间跨度

不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。

时间跨度(天)

用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。

上传物品相似度

支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如,

{
    "subject": "item108",
    "relations": [
        {
            "id": "item115",
            "score": 0.699357793663589
        },
        {
            "id": "item60",
            "score": 0.659905609639582
        },
        {
            "id": "item61",
            "score": 0.640305447750641
        },
        {
            "id": "item18",
            "score": 0.614275316537666
        }
    ]
}

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

基于用户的协同过滤推荐

基于用户的协同过滤推荐采用经典算法基于用户的协同过滤(UserCF)进行召回。基于用户的协同过滤算法是通过用户的历史行为数据发现用户对物品的喜欢(如购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同物品的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行物品推荐。

例如,A、B两个用户都购买了abc三本图书,并且给出了5星的好评。则A和B属于同一类用户。可以将A看过的图书d也推荐给用户B。
表3 基于用户的协同过滤推荐参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

最近邻域数

在UserCF算法中使用,生成的相似度矩阵中为每个用户保留的若干个最相似用户。默认为100。

最小交叉度

物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。

默认值:1。

物品活跃度

物品过滤用户的活跃度阈值。

取值范围:1-10000。

默认值:1。

效用阈值

用户对物品综合打分的阈值。

取值范围:0.000001-10。

最大推荐结果数

最多生成多少个推荐结果。

默认值:100。

开启时间跨度

不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。

时间跨度

用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。

上传物品相似度

支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如,

{
    "subject": "item108",
    "relations": [
        {
            "id": "item115",
            "score": 0.699357793663589
        },
        {
            "id": "item60",
            "score": 0.659905609639582
        },
        {
            "id": "item61",
            "score": 0.640305447750641
        },
        {
            "id": "item18",
            "score": 0.614275316537666
        }
    ]
}

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

基于交替最小二乘的矩阵分解推荐

基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。
表4 基于交替最小二乘的矩阵分解推荐参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

隐向量维度

在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。默认为10。

迭代次数

指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。默认为10。

优化正则化系数

在ALS算法中使用,指定正则化系数,作为优化目标中参数项代价的系数,用于避免过拟合现象发生。默认为0.01。

最大推荐结果数

最多生成多少个推荐结果。默认为100。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

业务规则-基于历史行为记忆生成候选集

业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买了又买”等推荐场景。
表5 业务规则-基于历史行为记忆生成候选集参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

频次

  • “相对时间间隔”:指定历史行为时间段,选取数据中每个用户最靠后的行为数据的时间往前N天的行为数据计算用户偏好。建议至少设置30天。
  • “绝对时间间隔”:指定历史行为时间段,选取数据中每个用户距离现在时间往前N天的行为数据计算用户偏好。建议至少设置30天。
  • “行为类型”:指定行为类型。
  • “最小次数”:行为次数下界,高于此的物品才会被选中。默认为1。
  • “最大次数”:行为次数上界,低于此的物品才会被选中。

单击,增加频次。你可以单击右侧的删除该频次。

最大推荐结果数

最多生成多少个推荐结果。默认为100。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

业务规则-人工导入

业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务调用。
表6 业务规则-人工导入参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

OBS地址

用户可从此OBS地址中选择自定义物品列表的csv文件。单击,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。

导入候选集类型

选择导入候选集类型,目前支持以下三种。

  • 物品-分数候选集:物品-分数候选集可以用于在线服务的推荐候选集。
  • 用户相似度候选集:用户相似度候选集可用于实时召回。
  • 物品相似度候选集:物品相似度候选集可用于实时召回与在线服务的推荐候选集。

最大推荐结果数

最多生成多少个推荐结果。默认为100。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

数据格式(.csv文件):

itemId1

itemId2

itemId为物品id,算法将物品列表上传的物品作为候选集

用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。

基于特征匹配的召回策略

基于特征匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回属性匹配程度高的若干个物品。

表7 基于特性匹配的召回策略参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

匹配类型

通过匹配数据的特征,生成推荐候选集。 例如,通过用户匹配物品生成给用户推荐物品的候选集,物品自匹配生成给物品推荐物品的候选集。可选:

  • 用户匹配物品
  • 物品自匹配

匹配特征对

用户和物品相关联特征。请根据实际情况配置参数,如果属性匹配特征对相似度较高内存不够时需提升配置。

  • 用户特征名:字符串,长度1-20。
  • 物品特征名:字符串,长度1-20。
  • 权重值:权重影响不同物品属性匹配的程度,取值0.01-1,2位小数。
  • 匹配个数度量:如果开启匹配个数度量, 同个特征匹配个数多的数据有优势。例如博客标签中,匹配5个标签(tags)比匹配1个标签(tags)更相关。如果不开启, 多值特征匹配时,匹配特征个数无关,都被视为匹配。
  • 操作:可以单击操作列下面的进行删除某个匹配特征对。

您可以单击进入“添加匹配特征对”页面进行配置。设置特征对的用户特征名、物品特征名和权重。

最近邻域数

机器学习中的概念, 例如协同过滤计算中,需要计算物品之间,用户之间的相似度。最近邻域数是x,就是一个物品/用户找出x个和他相似的物品/用户。默认为100。

最大推荐结果数

最多生成多少个推荐结果。默认为100。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

基于UCB的召回策略

基于UCB的召回策略综合考虑了用户操作行为表中,物品发生的某几种行为类型及次数,然后给每一个物品都计算一个得分,最终返回得分最高的若干个物品。
表8 基于UCB的召回策略参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

最小行为次数

在物品上产生过行为的最小用户数,其中一个用户在一个物品上只计算一次行为。默认为30。

折中参数

令alpha为Exploration 和 Exploitation之间的折中参数,其取值范围为[0,1],alpha越趋近于0,则物品的得分对历史得分高的物品越有利,即 Exploitation。反之,alpha越趋近于1,则物品的得分越倾向于探索新物品,即Exploration。默认为0.5。

最大推荐结果数

最多生成多少个推荐结果。默认为100。

该参数会运用在“输出数据”的推荐候选集上。

时间跨度(天)

用于指定从数据源中取最近多少天的行为数据计算热度。默认取全部数据。

开启调度

开启调度,按照指定的调度策略定期执行作业。

  • “调度周期”:调度周期可选“天”“周”
  • “调度类型”:包括自定义和间隔调度。
  • “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。
  • “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。

近线召回

近线召回是基于用户实时的行为,分析用户短时间内(10秒周期)的兴趣爱好,推荐相关内容。
表9 近线召回参数说明

参数名称

说明

名称

近线召回名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

对于近线召回策略的描述信息。

itemCF作业名称

默认无。

填写后可利用itemCF作业生成的结果,进一步扩大召回候选集的范围。

开启时间过滤

开启时间过滤即对候选集进行时间上的过滤。默认关闭。

开启之后需配置如下参数:
  • “过滤字段”:发布时间(publishTime)或过期时间(expireTime)。
  • “保留期”:单位(天)。最小值1,最大值15。

召回结果中,仅保留符合 ((当前时间-过滤字段的值)< 保留期)的召回结果。

召回字段

召回字段即在召回时,仅利用选择的召回字段进行召回。

数据结构任务完成后,人工复核中,选中应用于兴趣属性的物品特征(如果物品特征为tags,选中应用于兴趣属性。则在召回字段下拉栏中显示为“interested_tags”)。选中召回字段后,默认利用该字段中召回的字段值个数为1(可根据实际需求进行调整)。

  • 限制1:1 <= 召回字段数量 <=5
  • 限制2:1<= 召回字段中利用召回字段值的数量和 <=10

最大推荐结果数

最多生成多少个推荐结果。默认100。

该参数会运用在“输出数据”的推荐候选集上。

开启异常告警

开启异常告警即当任务发生异常时,产生告警通知到客户。默认关闭。开启之后需配置如下参数:

“主题名称”:单击选择SMN主题。如果您还未有可选的主题,请前往消息通知服务创建主题

基于物品相似度的实时召回

基于物品相似度的实时召回策略是根据用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出用户该时间段内感兴趣的物品,结合物品的相似度信息进行关联推荐。

表10 基于物品相似度的实时召回参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

依赖作业名称

已经完成的可以提供物品和物品相似度关系的作业,用来进行物品的关联推荐。

topK

用户最感兴趣的排序在前K个的物品。

行为

  • 行为类型:用户感兴趣的行为类型。
  • 权重值:行为的初始权重。
  • 衰减系数:用于衰减行为初始权重的系数。
  • 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。

基于用户相似度的实时召回

基于用户相似度的实时召回策略是根据用户间的相似度信息,找到相似用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出相似用户该时间段内感兴趣的物品,加权汇总后推荐给该用户。

表11 基于用户相似度的实时召回参数说明

参数名称

说明

名称

策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。

描述

策略的具体描述。

依赖作业名称

已经完成的可以提供用户和用户相似度关系的作业,用来进行用户的关联推荐。

topK

用户最感兴趣的排序在前K个的物品。

行为

  • 行为类型:用户感兴趣的行为类型。
  • 权重值:行为的初始权重。
  • 衰减系数:用于衰减行为初始权重的系数。
  • 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。

相关文档