准备离线数据源
在使用RES创建数据源时,您需要准备以下的3种基础数据包并上传至OBS。如果使用近线流程,需先将业务系统埋点日志转换成推荐系统指定格式,并实时写入DIS相应通道。本章节介绍了RES当前离线数据源和近线数据源的数据格式,您可以参考本章节说明,准备相应的数据。
目前数据源只支持JSON格式,且单条数据长度不超过3000个字节。
用户数据
字段名 |
类型 |
描述 |
是否必选 |
---|---|---|---|
userId |
String |
全局唯一用户ID。可输入的字符范围为1~64个字符。只能包含字母、数字、中划线、下划线和特殊字符(: . / # )并且不能以空格开始和结束。 |
是 |
age |
Long |
年龄。 |
否 |
gender |
String |
性别。取值为:
|
否 |
location |
Json |
根据业务而设定的用户关注的地理位置信息。如常驻地,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 |
否 |
tags |
List[String] |
描述用户的标签,每个标签为独立的一个元素。如[“篮球”, “家庭”]。 |
否 |
interest_tags |
List[String] |
兴趣标签,由系统自动更新,默认保留字段。 |
否 |
extend |
Json |
扩展字段,由用户指定扩展字段的key和value。其中:
|
否 |
物品数据
字段名 |
类型 |
描述 |
是否必选 |
---|---|---|---|
itemId |
String |
全局唯一物品ID。 |
是 |
itemType |
String |
物品的类型,可用于对推荐结果集的多样性控制。包含:
|
是 |
category |
String |
物品的类别,如“课程”、“零食”,可用于类别之间的打散。 |
否 |
status |
Long |
物品是否可推荐、是否置顶、是否注销,默认值为0。
|
否 |
title |
String |
标题,可用于语义分析。 |
否 |
score |
Long |
物品的权重,权重越高,被优先推荐的概率越高,取值范围:1-100。如不设置,默认值为1。 |
否 |
publishTime |
Long |
发布时间,采用UTC标准时间,单位以秒计。对物品有实时性要求的则必填。 |
否 |
expireTime |
Long |
失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。 |
否 |
author |
List[String] |
作者,一个作者一个元素,信息流推荐场景建议填写。 |
否 |
content |
String |
物品的内容描述信息,例如简介/摘要/正文关键片段,最长支持5000个中英文字符,超过则截断处理。 |
否 |
tags |
List[String] |
描述物品的标签,每个标签为独立的一个元素。 |
否 |
location |
Json |
物品的地理位置信息,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 |
否 |
extend |
Json |
扩展字段,由用户指定扩展字段的key和value。 其中:
|
否 |
行为数据
字段名 |
类型 |
描述 |
是否必选 |
---|---|---|---|
userId |
String |
用户ID。 |
是 |
itemType |
String |
物品的类型。 |
是 |
itemId |
String |
对应行为发生的对象的值。如果是和物品发生关系,则是物品的id(itemId)的值。 |
是 |
actionType |
String |
行为类型,包括正向行为和负向行为。下面为预置的行为类型和对应的权重,权重有默认分数,默认分数代表该行为类型的权重,可做修改。同时支持自定义行为类型。
说明:
|
是 |
actionMeasure |
Int |
本次行为的度量,取值为正整数1-10。建议用户根据实际情况进行换算,如总视频15秒,观看视频duration超过10秒的7分,全看完得10分等。 |
是 |
actionTime |
Long |
行为发生的时间,采用UTC标准时间,单位以秒计。 |
是 |
actionLocation |
Json |
行为发生的位置,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 |
否 |
sceneId |
String |
推荐场景 ID,用于场景维度的区分。 |
否 |
traceId |
String |
用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。 |
否 |
flowId |
String |
用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 |
否 |
数据示例
单击下载样例数据,将样例数据下载至本地