更新时间:2022-08-05 GMT+08:00
分享

过滤规则

过滤规则用于配置候选集的过滤方式,使之不进入候选集。过滤规则说明请参见图1

图1 过滤规则

创建过滤规则

“创建过滤规则”页面,用户可以对目标数据选择不同策略进行离线计算,得到合适的候选集。

创建过滤规则操作步骤如下:

  1. “离线作业”下,单击“过滤规则”页签,单击该页面做上方“创建”,进入“创建过滤规则”页面。
  2. “创建过滤规则”页面,填写特征工程“名称”“场景”“描述”
    • 特征工程名称:请以“Filter-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。
    • “场景”信息可选择您在全局配置页面创建的场景。
  3. 根据表1设置计算引擎和存储平台相关参数,并根据业务需要在“增加历史行为过滤”,如图2所示。
    图2 创建过滤规则
    表1 过滤规则参数说明

    参数名称

    说明

    计算引擎

    • 服务名,计算引擎DLI用于推荐系统的离线计算和近线计算。
    • 集群名称,选择“资源中心”绑定的DLI集群名称。
    • 任务配置地址,在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。
    • 资源名,指定DLI运行作业的资源规格。

    存储平台

    • 服务名称,CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。
    • 集群名称,选择“资源中心”绑定的CloudTable集群名称。
    • 表名,存储的表格名称。

    过滤规则别名

    自定义过滤规则名称。由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。

    黑名单地址

    黑名单所在路径。 黑名单中的物品不能出现在最终推荐结果集里面。黑名单内容需要存储在OBS上。

    白名单地址

    白名单所在的路径。白名单之外的物品不应该出现在最终推荐结果集里。白名单内容需要存储在OBS上。

    历史行为过滤

    单击增加历史行为过滤,单击后方的删除过滤行为。指定与用户个性化的物品候选集过滤准则。例如对于用户过去3天内有过view行为的物品(如新闻)过滤,使之不进入候选集。

    行为类型包括。

    • view:物品曝光
    • click:用户点击物品
    • collect:用户收藏了某个物品
    • uncollect:用户取消收藏某个物品
    • search_click:用户点击搜索结果中的物品
    • comment:用户对物品的评论
    • share:分享
    • like:点赞
    • dislike:点衰
    • grade:评分
    • consume:消费
    • use:观看视频/听音乐/阅读。

    行为过滤逻辑

    各个历史行为过滤规则之间的逻辑。例如,“AND”逻辑为在7天内点赞超过3次且在7天内消费超过3次的物品,“OR”逻辑为在7天内点赞超过3次或在7天内消费超过3次的物品。

    数据源

    数据源可选择初始格式或通用格式。

    说明:

    过滤规则涉及历史行为过滤,则用到用户操作行为表,需要选取目标数据进行过滤。

    “初始格式”

    用户操作行为表:初始数据中的用户操作行为表。

    “通用格式”
    • 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。
    • 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。
  4. 策略参数设置完成后,单击“确定”

    您可以前往过滤规则列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。

相关文档