文档首页> > 用户指南> 训练作业> 组合作业

组合作业

分享
更新时间: 2019/05/31 17:15

创建组合作业

通过创建组合作业,用户可以根据配置的策略规则进行离线计算得到不同策略的候选集ID,来进行在线流程计算,得到用户满意的推荐结果。

创建组合作业主要包括如下设置:

基本配置

基本配置主要包括设置组合作业的名称和描述。

  1. 登录RES管理控制台。
  2. 在RES管理控制台左侧的“训练作业”下,单击“组合作业”进入组合作业页面,单击“创建”
  3. “创建组合作业”页面,填写“名称”“描述”,其中带*标志的参数为必填参数。

    说明:

    组合作业名称:组合作业名称请以“Standard-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。

  4. 完成该项配置后,单击“下一步”

资源选择

您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算,存储平台进行存储将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。

  1. 在RES管理控制台完成“基本配置”之后,进入“资源选择”页签,如图1所示。

    图1 资源选择

  2. 填写组合作业相关配置参数,请参见表1

    表1 创建组合作业参数说明

    模块

    参数名称

    说明

    计算引擎

    服务名

    计算引擎用于推荐系统的离线计算和近线计算。可选服务包括:

    • DLI
    • MRS,当选择服务为MRS时需要用户自定义日志路径。

    集群名称

    选择“资源中心”绑定的DLI/MRS集群名称。

    任务配置地址

    在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。

    资源名

    指定DLI/MRS运行作业的资源规格。

    可选择“全局配置”添加的计算资源或默认值。

    存储平台

    服务名称

    CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。

    集群名称

    选择“资源中心”绑定的CloudTable集群名称。

    表名

    存储的表格名称。

    数据源

    标准格式

    1. 选择提前已经存储在OBS上的如下数据源:
      • 用户属性表
      • 用户属性配置表
      • 物品属性表
      • 物品属性配置表
      • 用户操作行为表

      如上数据表的数据格式规范请参见离线数据源

      OBS上传文件操作详请参见《对象存储服务控制台指南》中的入门章节。

    2. 在对应表的“数据源”列中,单击选择原始数据的OBS存储路径。
    3. 在对应表的“数据格式”列中,数据格式可选:csv/parquet/json/orc。
      当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下:
      • 表头,有或无,根据用户数据格式选取。
      • 分隔符,选择逗号(,)、竖线(|)、制表符(\t)和自定义。
      • 引用字符,单引号(')、双引号(")和自定义。
      • 转义字符,反斜杠(\)和自定义。
    4. 在对应表的“操作”列中,单击“清除数据”可以删除对应表的数据源。

    通用格式

    通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。

    说明:

    在使用通用格式数据之前,需要先进行特征工程算子计算。

    1. 通用格式数据:从用户属性表、用户属性配置表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。
    2. 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。

  3. 完成该项配置后,单击“下一步”

召回策略

您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过启动离线计算任务进行候选推荐结果集的生成。

各个召回策略的详细参数设置和输入输出请单击下方链接查看。

配置召回策略操作步骤如下:

  1. “创建组合作业”页面,配置完资源选择参数之后,进入“召回策略”页签,用户可以根据业务需要在“添加召回策略”下拉框中选择一个合适的召回策略,如图2所示。

    图2 召回策略

  2. (可选)选中目标召回策略,单击“查看输入输出”,可以查看输入数据和输出数据。
  3. (可选)选中目标召回策略,单击“设置参数”,可以对所选策略进行参数设置。
  4. 策略设置完成后,单击“下一步”

过滤规则

过滤规则是用于配置候选集的过滤方式,使相关内容不进入候选集。过滤规则生成的候选集UUID用于最终结果推荐。

配置过滤规则操作步骤如下:

  1. “创建组合作业”页面,配置完召回策略参数之后,进入“过滤规则”页签,如图3所示。

    图3 过滤规则

  2. 参见填写业务相关配置,请参见表1 过滤规则参数说明
  3. 过滤规则设置完成后,单击“下一步”

排序策略

排序策略是用于对召回策略生成的候选集进行二次排序。如果使用排序策略,需在特征工程中提交排序样本预处理,创建完成后才可以正常使用排序策略。

各个策略的详细参数设置和输入输出请单击下方链接查看。

  1. “创建组合作业”页面,配置完过滤规则参数之后,进入“排序策略”页签,如图4所示。用户可以根据业务需要在“添加排序策略”下拉框中选择一个合适的排序策略,请参见排序策略对所选排序策略进行参数设置。

    图4 排序策略

  2. (可选)选中目标排序策略,单击“删除”,可以删除对应排序策略。
  3. 策略设置完成之后,单击“下一步”进入“预览设置”页面。

预览配置

在预览设置页面,展示了创建作业的名称、资源信息、召回策略信息、过滤规则和排序规则详细信息。

预览结束后,单击“完成”,组合作业创建完成。

如果您喜欢这篇文档,您还可以:

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区