更新时间:2024-04-17 GMT+08:00
分享

准备离线数据源

在使用RES创建数据源时,您需要准备以下的3种基础数据包并上传至OBS。如果使用近线流程,需先将业务系统埋点日志转换成推荐系统指定格式,并实时写入DIS相应通道。本章节介绍了RES当前离线数据源和近线数据源的数据格式,您可以参考本章节说明,准备相应的数据。

目前数据源只支持JSON格式且单条数据长度不超过3000个字节

用户数据

表1 用户数据字段描述

字段名

类型

描述

是否必选

userId

String

全局唯一用户ID。可输入的字符范围为1~64个字符。只能包含字母、数字、中划线、下划线和特殊字符(: . / # )并且不能以空格开始和结束。

age

Long

年龄。

gender

String

性别。取值为:

  • male
  • female
  • unknown

location

Json

根据业务而设定的用户关注的地理位置信息。如常驻地,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。

tags

List[String]

描述用户的标签,每个标签为独立的一个元素。如[“篮球”, “家庭”]。

interest_tags

List[String]

兴趣标签,由系统自动更新,默认保留字段。

extend

Json

扩展字段,由用户指定扩展字段的key和value。其中:

  • key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。
  • value,支持long/float/String/strArray/location格式的数据。

物品数据

表2 物品数据字段描述

字段名

类型

描述

是否必选

itemId

String

全局唯一物品ID。

itemType

String

物品的类型,可用于对推荐结果集的多样性控制。包含:

  • item
  • article
  • video
  • audio
  • image

category

String

物品的类别,如“课程”、“零食”,可用于类别之间的打散。

status

Long

物品是否可推荐、是否置顶、是否注销,默认值为0。

  • 0:可推荐
  • 1:不可推荐
  • 2:置顶
  • -1:注销

title

String

标题,可用于语义分析。

score

Long

物品的权重,权重越高,被优先推荐的概率越高,取值范围:1-100。如不设置,默认值为1。

publishTime

Long

发布时间,采用UTC标准时间,单位以秒计。对物品有实时性要求的则必填。

expireTime

Long

失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。

author

List[String]

作者,一个作者一个元素,信息流推荐场景建议填写。

content

String

物品的内容描述信息,例如简介/摘要/正文关键片段,最长支持5000个中英文字符,超过则截断处理。

tags

List[String]

描述物品的标签,每个标签为独立的一个元素。

location

Json

物品的地理位置信息,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。

extend

Json

扩展字段,由用户指定扩展字段的key和value。

其中:

  • key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。
  • value,支持long/float/String/strArray/location格式的数据。

行为数据

表3 行为数据字段描述

字段名

类型

描述

是否必选

userId

String

用户ID。

itemType

String

物品的类型

itemId

String

对应行为发生的对象的值。如果是和物品发生关系,则是物品的id(itemId)的值。

actionType

String

行为类型,包括正向行为和负向行为。下面为预的行为类型和对应的权重,权重有默认分数,默认分数代表该行为类型的权重,可做修改。同时支持自定义行为类型。

  • 如果当前场景只有用户关注人这一种行为,则此参数表示用户关注的对象是人。
  • 如果当前场景只有用户关注物品这一种行为,则此参数表示用户关注的对象是物品。
说明:
  • 自定义行为类型行为名称需要符合以下要求,由数字、字母、下划线组成,长度为4-32。
  • 自定义行为类型接入系统后,初始默认为正向行为,分数为0.5,后续可通过人工复核进行修改。
  • 正向行为:

    click :点击 ,默认分数0.3

    collect:收藏,默认分数0.5

    search_click:点击搜索,默认分数0.4

    comment:评论,默认分数0.2

    share:分享,默认分数0.5

    like:点赞,默认分数0.8

    consume:消费,默认分数1

    use:观看视频/听音乐/阅读,默认分数 0.6

    download:下载,默认分数0.6

    tip:打赏,默认分数1

    subscribe:关注,默认分数0.7

  • 负向行为:

    view:曝光,默认分数0.1

    dislike:点衰/踩,默认分数0.8

    uncollect:取消收藏,默认分数0.4

actionMeasure

Int

本次行为的度量,取值为正整数1-10。建议用户根据实际情况进行换算,如总视频15秒,观看视频duration超过10秒的7分,全看完得10分等。

actionTime

Long

行为发生的时间,采用UTC标准时间,单位以秒计。

actionLocation

Json

行为发生的位置,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。

sceneId

String

推荐场景 ID,用于场景维度的区分。

traceId

String

用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。

flowId

String

用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。

数据示例

单击下载样例数据,将样例数据下载至本地

相关文档