组合作业
创建组合作业主要包括如下设置:
基本配置
基本配置主要包括设置组合作业的名称和描述。
- 登录RES管理控制台,在左侧导航栏的“离线作业”下,单击“组合作业”进入组合作业页面。
- 在“组合作业”页面上方,单击“创建”,进入“创建组合作业”页面。
- 填写“名称”、“场景”和“描述”,其中带*标志的参数为必填参数。
- 组合作业名称请以“Standard-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。
- “场景”信息可选择您在全局配置页面创建的场景。
- 完成该项配置后,单击“下一步”。
资源选择
您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算,存储平台将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。
- 在RES管理控制台完成“基本配置”之后,进入“资源选择”页签。
- 填写组合作业相关配置参数,请参见表1。
表1 创建组合作业参数说明 模块
参数名称
说明
计算引擎
服务名
计算引擎用于推荐系统的离线计算和近线计算。默认DLI。
集群名称
选择“资源中心”绑定的DLI集群名称。
任务配置地址
在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。
资源名
指定DLI运行作业的资源规格。
可选择“全局配置”添加的计算资源或默认值。
存储平台
服务名称
CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。此处选择已经完成资源绑定的CloudTable。
集群名称
选择“资源中心”绑定的CloudTable集群名称。
表名
存储的表格名称。
您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。
数据源
初始格式
- 选择提前已经存储在OBS上的如下数据源:
- 用户属性表
- 物品属性表
- 用户操作行为表
如上数据表的数据格式规范请参见离线数据源。
- 在对应表的“数据源”列中,单击选择数据的OBS存储路径。
- 在对应表的“数据格式”列中,数据格式可选:csv/json。
当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下:
- 表头,有或无,根据用户数据格式选取。
- 分隔符,选择逗号(,)、竖线(|)、制表符(\t)和自定义。
- 引用字符,单引号(')、双引号(")和自定义。
- 转义字符,反斜杠(\)和自定义。
- 在对应表的“操作”列中,单击“清除数据”可以删除对应表的数据源。
通用格式
通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。
说明:在使用通用格式数据之前,需要先进行特征工程算子计算。
- 通用格式数据:从用户属性表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为,并生成JSON数据,即内部通用格式。
- 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。
- 选择提前已经存储在OBS上的如下数据源:
- 完成该项配置后,单击“下一步”。
召回策略
您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过启动离线计算任务进行候选推荐结果集的生成。
各个召回策略的详细参数设置和输入输出请单击下方链接查看。
- 基于特定行为热度推荐
- 基于综合行为热度推荐
- 基于物品的协同过滤推荐
- 基于用户的协同过滤推荐
- 基于交替最小二乘的矩阵分解推荐
- 业务规则-基于历史行为记忆生成候选集
- 业务规则-人工导入
- 基于属性匹配的召回策略
配置召回策略操作步骤如下:
- 在“创建组合作业”页面,配置完资源选择参数之后,进入“召回策略”页签,单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略,如图2所示。
- (可选)在目标召回策略右侧,单击“查看输入输出”,可以查看输入数据和输出数据。
- (可选)在目标召回策略右侧,单击“设置参数”,可以对所选策略进行参数设置。
- 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步”。
过滤规则
过滤规则是用于配置候选集的过滤方式,使相关内容不进入候选集。过滤规则生成的候选集UUID用于最终结果推荐。
配置过滤规则操作步骤如下:
- 在“创建组合作业”页面,配置完召回策略参数之后,进入“过滤规则”页签。
- 填写业务相关配置,详请参见过滤规则。
- 过滤规则设置完成后,单击“下一步”。
排序策略
排序策略是用于对召回策略生成的候选集进行二次排序。如果使用排序策略,需在特征工程中提交排序样本预处理,创建完成后才可以正常使用排序策略。
各个策略的详细参数设置和输入输出请单击下方链接查看。