准备离线数据源

在使用RES创建数据源时，您需要准备以下的3种基础数据包并上传至OBS。如果使用近线流程，需先将业务系统埋点日志转换成推荐系统指定格式，并实时写入DIS相应通道。本章节介绍了RES当前离线数据源和近线数据源的数据格式，您可以参考本章节说明，准备相应的数据。

目前数据源只支持JSON格式，且单条数据长度不超过3000个字节。

用户数据
物品数据
行为数据

用户数据

表1 用户数据字段描述
字段名	类型	描述	是否必选
userId	String	全局唯一用户ID。可输入的字符范围为1～64个字符。只能包含字母、数字、中划线、下划线和特殊字符（: . / # ）并且不能以空格开始和结束。	是
age	Long	年龄。	否
gender	String	性别。取值为： male female unknown	否
location	Json	根据业务而设定的用户关注的地理位置信息。如常驻地，精度维度格式：{"lat": latitude, "lon": longitude }。例如："location": {"lat": 41.12, "lon": -71.34}。	否
tags	List[String]	描述用户的标签，每个标签为独立的一个元素。如[“篮球”, “家庭”]。	否
interest_tags	List[String]	兴趣标签，由系统自动更新，默认保留字段。	否
extend	Json	扩展字段，由用户指定扩展字段的key和value。其中： key，您可以按照业务需求自行命名。无需按照示例以“extend_”开头，key不能为中文。 value，支持long/float/String/strArray/location格式的数据。	否

物品数据

表2 物品数据字段描述
字段名	类型	描述	是否必选
itemId	String	全局唯一物品ID。	是
itemType	String	物品的类型，可用于对推荐结果集的多样性控制。包含： item article video audio image	是
category	String	物品的类别，如“课程”、“零食”，可用于类别之间的打散。	否
status	Long	物品是否可推荐、是否置顶、是否注销，默认值为0。 0：可推荐 1：不可推荐 2：置顶 -1：注销	否
title	String	标题，可用于语义分析。	否
score	Long	物品的权重，权重越高，被优先推荐的概率越高，取值范围：1-100。如不设置，默认值为1。	否
publishTime	Long	发布时间，采用UTC标准时间，单位以秒计。对物品有实时性要求的则必填。	否
expireTime	Long	失效时间，采用UTC标准时间，单位以秒计。当前服务器的时间大于该时间时，此物品将不会被推荐。如不设置，代表永不失效。	否
author	List[String]	作者，一个作者一个元素，信息流推荐场景建议填写。	否
content	String	物品的内容描述信息，例如简介/摘要/正文关键片段，最长支持5000个中英文字符，超过则截断处理。	否
tags	List[String]	描述物品的标签，每个标签为独立的一个元素。	否
location	Json	物品的地理位置信息，精度维度格式：{"lat": latitude, "lon": longitude }。例如："location": {"lat": 41.12, "lon": -71.34}。	否
extend	Json	扩展字段，由用户指定扩展字段的key和value。其中： key，您可以按照业务需求自行命名。无需按照示例以“extend_”开头，key不能为中文。 value，支持long/float/String/strArray/location格式的数据。	否

行为数据

表3 行为数据字段描述
字段名	类型	描述	是否必选
userId	String	用户ID。	是
itemType	String	物品的类型。	是
itemId	String	对应行为发生的对象的值。如果是和物品发生关系，则是物品的id(itemId)的值。	是
actionType	String	行为类型，包括正向行为和负向行为。下面为预置的行为类型和对应的权重，权重有默认分数，默认分数代表该行为类型的权重，可做修改。同时支持自定义行为类型。如果当前场景只有用户关注人这一种行为，则此参数表示用户关注的对象是人。如果当前场景只有用户关注物品这一种行为，则此参数表示用户关注的对象是物品。说明：自定义行为类型，行为名称需要符合以下要求，由数字、字母、下划线组成，长度为4-32。自定义行为类型接入系统后，初始默认为正向行为，分数为0.5，后续可通过人工复核进行修改。正向行为： click ：点击，默认分数0.3 collect：收藏，默认分数0.5 search_click：点击搜索，默认分数0.4 comment：评论，默认分数0.2 share：分享，默认分数0.5 like：点赞，默认分数0.8 consume：消费，默认分数1 use：观看视频/听音乐/阅读，默认分数 0.6 download：下载，默认分数0.6 tip：打赏，默认分数1 subscribe：关注，默认分数0.7 负向行为： view：曝光，默认分数0.1 dislike：点衰/踩，默认分数0.8 uncollect：取消收藏，默认分数0.4	是
actionMeasure	Int	本次行为的度量，取值为正整数1-10。建议用户根据实际情况进行换算，如总视频15秒，观看视频duration超过10秒的7分，全看完得10分等。	是
actionTime	Long	行为发生的时间，采用UTC标准时间，单位以秒计。	是
actionLocation	Json	行为发生的位置，精度维度格式：{"lat": latitude, "lon": longitude }。例如："location": {"lat": 41.12, "lon": -71.34}。	否
sceneId	String	推荐场景 ID，用于场景维度的区分。	否
traceId	String	用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。	否
flowId	String	用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户，用户需把flowId写到用户行为日志中。	否

数据示例

单击下载样例数据，将样例数据下载至本地

父主题： 数据源管理

上一篇：数据源管理简介

下一篇：上传离线数据源至OBS

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

准备离线数据源

用户数据

物品数据

行为数据

数据示例

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线