过滤规则
过滤规则用于配置候选集的过滤方式,使之不进入候选集。过滤规则说明请参见图1。
创建过滤规则
在“创建过滤规则”页面,用户可以对目标数据选择不同策略进行离线计算,得到合适的候选集。
创建过滤规则操作步骤如下:
- 在“离线作业”下,单击“过滤规则”页签,单击该页面做上方“创建”,进入“创建过滤规则”页面。
- 在“创建过滤规则”页面,填写特征工程“名称”、“场景”和“描述”。
- 特征工程名称:请以“Filter-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。
- “场景”信息可选择您在全局配置页面创建的场景。
- 根据表1设置计算引擎和存储平台相关参数,并根据业务需要在“增加历史行为过滤”,如图2所示。
表1 过滤规则参数说明 参数名称
说明
计算引擎
- 服务名,计算引擎DLI用于推荐系统的离线计算和近线计算。
- 集群名称,选择“资源中心”绑定的DLI集群名称。
- 任务配置地址,在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。
- 资源名,指定DLI运行作业的资源规格。
存储平台
- 服务名称,CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。
- 集群名称,选择“资源中心”绑定的CloudTable集群名称。
- 表名,存储的表格名称。
过滤规则别名
自定义过滤规则名称。由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。
黑名单地址
黑名单所在路径。 黑名单中的物品不能出现在最终推荐结果集里面。黑名单内容需要存储在OBS上。
白名单地址
白名单所在的路径。白名单之外的物品不应该出现在最终推荐结果集里。白名单内容需要存储在OBS上。
历史行为过滤
单击增加历史行为过滤,单击后方的删除过滤行为。指定与用户个性化的物品候选集过滤准则。例如对于用户过去3天内有过view行为的物品(如新闻)过滤,使之不进入候选集。
行为类型包括。
- view:物品曝光
- click:用户点击物品
- collect:用户收藏了某个物品
- uncollect:用户取消收藏某个物品
- search_click:用户点击搜索结果中的物品
- comment:用户对物品的评论
- share:分享
- like:点赞
- dislike:点衰
- grade:评分
- consume:消费
- use:观看视频/听音乐/阅读。
行为过滤逻辑
各个历史行为过滤规则之间的逻辑。例如,“AND”逻辑为在7天内点赞超过3次且在7天内消费超过3次的物品,“OR”逻辑为在7天内点赞超过3次或在7天内消费超过3次的物品。
数据源
数据源可选择初始格式或通用格式。
说明:过滤规则涉及历史行为过滤,则用到用户操作行为表,需要选取目标数据进行过滤。
“初始格式”
用户操作行为表:初始数据中的用户操作行为表。
“通用格式”- 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。
- 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。
- 策略参数设置完成后,单击“确定”。
您可以前往过滤规则列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。