数据结构
当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。
数据结构介绍
数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中每一个属性的数据格式、统计所有行为,然后保存解析生成的数据格式。
前提条件
已按照创建离线数据源操作指导完成数据源的创建。
操作步骤
- 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。单击目标数据源名称进入数据源详情页面。
- 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页面,确认页面信息后单击“是”进行特征抽取。
- 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。
- 在“特征抽取”页签确认识别出的数据信息。
如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击“是”完成复核。如果复核抽取的数据信息不符合预期,可选择“重新识别” 。
该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类型”等信息,具体描述请参见表1。
图1 确认特征抽取
表1 确认特征参数 参数名称
说明
用户特征
列表中展示抽取的用户特征和参数类型。您可以根据业务需求单击增加用户特征。单击特征后方的删除不需要的用户特征。
物品特征
列表中展示抽取的物品特征和参数类型,此特征会额外应用于所选字段的功能。您可以根据业务需求单击增加物品特征。单击特征后方的删除不需要的物品特征。
您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“兴趣属性”或者“关键词提取”。其中:
- 兴趣属性,此特征将会用于统计用户的兴趣标签,并生成特征名为“interested_原特征名”的特征。
- 关键词提取,只有当关键词为content和title时会进行关键词提取,并生成特征名为“keyword_原特征名”的特征。
正向行为类型
列表中展示抽取的正向行为类型。您可以根据业务需求单击增加正向行为类型。单击特征后方的删除不需要的正向行为类型。
您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”。其中:
- 历史记录:此特征将会用于统计用户此行为的历史记录,并生成特征名为“history_原特征名”的特征。
- 物品热度值:此行为将会被用于统计物品的热度值信息,并生成特征名为“statistics_hotValue”的特征。
说明:
如果您有自定义行为类型,系统识别后,会默认为正向行为类型,默认分数为0.5。您可以根据业务需求对其进行修改,也可以删除,直接添加为负向行为类型。
负向行为类型
列表中展示抽取的负向行为类型。您可以根据业务需求单击增加负向行为类型。单击特征后方的删除不需要的负向行为类型。
您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”,其相关说明与正向行为类型一致。