推荐系统 RES推荐系统 RES

计算
弹性云服务器 ECS
裸金属服务器 BMS
云手机 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器 HECS
VR云渲游平台 CVR
特惠算力专区
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属企业存储服务
云存储网关 CSG
专属分布式存储服务 DSS
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
园区智能体 CampusGo
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
视频分析服务 VAS
语音交互服务 SIS
知识图谱 KG
人证核身服务 IVS
IoT物联网
设备接入 IoTDA
设备管理 IoTDM(联通用户专用)
全球SIM联接 GSL
IoT开发者服务
IoT数据分析
车联网服务 IoV
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
开发与运维
软件开发平台 DevCloud
项目管理 ProjectMan
代码托管 CodeHub
流水线 CloudPipeline
代码检查 CodeCheck
编译构建 CloudBuild
部署 CloudDeploy
云测 CloudTest
发布 CloudRelease
移动应用测试 MobileAPPTest
CloudIDE
Classroom
开源镜像站 Mirrors
应用魔方 AppCube
云性能测试服务 CPTS
应用管理与运维平台 ServiceStage
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
资源管理服务 RMS
应用身份管理服务 OneAccess
专属云
专属计算集群 DCC
解决方案
高性能计算 HPC
SAP
游戏云
混合云灾备
价格
成本优化最佳实践
专属云商业逻辑
用户服务
帐号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
区块链
区块链服务 BCS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
应用编排服务 AOS
多云容器平台 MCP
基因容器 GCS
容器洞察引擎 CIE
云原生服务中心 OSC
容器批量计算 BCE
容器交付流水线 ContainerOps
应用服务网格 ASM
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB (for openGauss)
云数据库 GaussDB(for MySQL)
云数据库 GaussDB NoSQL
数据管理服务 DAS
数据库和应用迁移 UGO
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据湖治理中心 DGC
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
API网关 APIG
分布式缓存服务 DCS
分布式消息服务RocketMQ版
企业应用
域名注册服务 Domains
云解析服务 DNS
云速建站 CloudSite
网站备案
华为云WeLink
会议
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMAExchange
API全生命周期管理 ROMA API
安全与合规
安全技术与应用
DDoS防护 ADS
Web应用防火墙 WAF
云防火墙 CFW
应用信任中心 ATC
企业主机安全 HSS
容器安全服务 CGS
云堡垒机 CBH
数据库安全服务 DBSS
数据加密服务 DEW
数据安全中心 DSC
云证书管理服务 CCM
SSL证书管理 SCM
漏洞扫描服务 VSS
态势感知 SA
威胁检测服务 MTD
管理检测与响应 MDR
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
智能协作
IdeaHub
开发者工具
SDK开发指南
API签名指南
DevStar
HCloud CLI
Terraform
Ansible
云生态
云市场
合作伙伴中心
华为云培训中心
其他
管理控制台
消息中心
产品价格详情
系统权限
我的凭证
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
更新时间:2021/03/18 GMT+08:00
分享

组合作业

创建组合作业

通过创建组合作业,用户可以根据配置的策略规则进行离线计算得到不同策略的候选集ID,来进行在线流程计算,得到用户满意的推荐结果。组合作业具体实现请参见图1

图1 组合作业

创建组合作业主要包括如下设置:

基本配置

基本配置主要包括设置组合作业的名称和描述。

  1. 登录RES管理控制台,在左侧导航栏的“离线作业”下,单击“组合作业”进入组合作业页面。
  2. “组合作业”页面上方,单击“创建”,进入“创建组合作业”页面。
  3. 填写“名称”“场景”“描述”,其中带*标志的参数为必填参数。
    • 组合作业名称请以“Standard-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。
    • “场景”信息可选择您在全局配置页面创建的场景。
  4. 完成该项配置后,单击“下一步”

资源选择

您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算,存储平台将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。

  1. 在RES管理控制台完成“基本配置”之后,进入“资源选择”页签。
  2. 填写组合作业相关配置参数,请参见表1
    表1 创建组合作业参数说明

    模块

    参数名称

    说明

    计算引擎

    服务名

    计算引擎用于推荐系统的离线计算和近线计算。默认DLI。

    集群名称

    选择“资源中心”绑定的DLI集群名称。

    任务配置地址

    在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。

    资源名

    指定DLI运行作业的资源规格。

    可选择“全局配置”添加的计算资源或默认值。

    存储平台

    服务名称

    CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。此处选择已经完成资源绑定的CloudTable。

    集群名称

    选择“资源中心”绑定的CloudTable集群名称。

    表名

    存储的表格名称。

    您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。

    数据源

    初始格式

    1. 选择提前已经存储在OBS上的如下数据源:
      • 用户属性表
      • 物品属性表
      • 用户操作行为表

      如上数据表的数据格式规范请参见离线数据源

      OBS上传文件操作详请参见《对象存储服务控制台指南》中的入门章节。

    2. 在对应表的“数据源”列中,单击选择数据的OBS存储路径。
    3. 在对应表的“数据格式”列中,数据格式可选:csv/json。
      当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下:
      • 表头,有或无,根据用户数据格式选取。
      • 分隔符,选择逗号(,)、竖线(|)、制表符(\t)和自定义。
      • 引用字符,单引号(')、双引号(")和自定义。
      • 转义字符,反斜杠(\)和自定义。
    4. 在对应表的“操作”列中,单击“清除数据”可以删除对应表的数据源。

    通用格式

    通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。

    说明:

    在使用通用格式数据之前,需要先进行特征工程算子计算。

    1. 通用格式数据:从用户属性表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为,并生成JSON数据,即内部通用格式。
    2. 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。
  3. 完成该项配置后,单击“下一步”

召回策略

您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过启动离线计算任务进行候选推荐结果集的生成。

各个召回策略的详细参数设置和输入输出请单击下方链接查看。

配置召回策略操作步骤如下:

  1. “创建组合作业”页面,配置完资源选择参数之后,进入“召回策略”页签,单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略,如图2所示。
    图2 召回策略
  2. (可选)在目标召回策略右侧,单击“查看输入输出”,可以查看输入数据和输出数据。
  3. (可选)在目标召回策略右侧,单击“设置参数”,可以对所选策略进行参数设置。
  4. 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步”

过滤规则

过滤规则是用于配置候选集的过滤方式,使相关内容不进入候选集。过滤规则生成的候选集UUID用于最终结果推荐。

配置过滤规则操作步骤如下:

  1. “创建组合作业”页面,配置完召回策略参数之后,进入“过滤规则”页签。
  2. 填写业务相关配置,详请参见过滤规则
  3. 过滤规则设置完成后,单击“下一步”

排序策略

排序策略是用于对召回策略生成的候选集进行二次排序。如果使用排序策略,需在特征工程中提交排序样本预处理,创建完成后才可以正常使用排序策略。

各个策略的详细参数设置和输入输出请单击下方链接查看。

  1. “创建组合作业”页面,配置完过滤规则参数之后,进入“排序策略”页签,如图3所示。用户可以根据业务需要在“添加排序策略”下拉框中选择一个合适的排序策略,请参见排序策略对所选排序策略进行参数设置。
    图3 排序策略
  2. (可选)在目标排序策略,单击“删除”,可以删除对应排序策略。
  3. 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成之后,单击“下一步”进入“预览设置”页面。

预览配置

“预览设置”页面,展示了创建作业的名称、资源信息、召回策略信息、过滤规则和排序规则详细信息。

预览结束后,单击“完成”,组合作业创建完成。作业一般需要运行一段时间,根据您的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。

您可以前往组合作业列表,查看作业的基本情况。在组合作业列表中,刚创建的离线作业“状态”“计算中”,当离线作业的“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当离线作业的“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。

分享:

    相关文档

    相关产品