数据导入
数据导入介绍
数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。
- 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。
- 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。
前提条件
- 已按照创建离线数据源操作指导完成数据源的创建。
- 已完成数据结构识别和人工复核确认。
操作步骤
- 在“执行步骤”页签,单击数据导入下的“执行”。进入“导入”页面,确认页面信息后单击“确认”,允许推荐系统读取您OBS中存储的特征数据,生成画像和宽表。
- 确认完成单击“执行”,待状态为“已完成”时,生成推荐系统内部通用的画像和宽表数据。
- 执行完成在页面下方会生成数据相关报告。
- “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、“非法条目数”、“重复度”和“合法率”信息。
- 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。
- “名称”项显示具体参数的名称。
- “条目数”显示各种类型数据的具体数量。
图1 查看报告
- 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。
- (可选)如果用户更新了数据源,可以重新导入数据。
- 单击“数据导入报告”后的“执行”,重新进行数据导入。
图2 重新导入数据
表1 参数解释 参数
说明
导入画像
选择是否导入画像。
画像分为用户画像和物品画像, 分别用于存储客户输入的用户特征, 物品特征, 如果同一用户或物品有多条记录, 将会去重。
导入宽表
选择是否导入宽表。
宽表为推荐系统内部格式, 以行为数据为主, 将行为数据中涉及到的用户数据和物品数据整合成一条数据。
保留已有宽表
选择对已有宽表是否保留。目前支持覆盖、是、否。
开启调度
开启调度,可按照您所设置的时间周期性的提交任务。
- “调度周期”:调度周期可选“天”或“周”。
- “调度类型”:包括自定义和间隔调度。
- “开始调度时间”:选择具体的调度时间。可在此下拉框中勾选具体的时间点。
- “时间间隔(小时)”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
- 设置完成后,单击“确定”,重新导入数据。
- 单击“数据导入报告”后的“执行”,重新进行数据导入。