更新时间:2024-04-17 GMT+08:00
分享

数据导入

数据导入介绍

数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。

  • 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。
  • 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。

前提条件

  • 已按照创建离线数据源操作指导完成数据源的创建。
  • 已完成数据结构识别和人工复核确认。

操作步骤

  1. “执行步骤”页签,单击数据导入下的“执行”。进入“导入”页面,确认页面信息后单击“确认”,允许推荐系统读取您OBS中存储的特征数据,生成画像和宽表。
  2. 确认完成单击“执行”,待状态为“已完成”时,生成推荐系统内部通用的画像和宽表数据。
  3. 执行完成在页面下方会生成数据相关报告。
    • “数据导入报告”,显示数据“类型”“总条目数”“合法条目数”“非法条目数”“重复度”“合法率”信息。
    • 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。
      • “名称”项显示具体参数的名称。
      • “条目数”显示各种类型数据的具体数量。
        图1 查看报告
    • 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”“数量”“原因”,方便您定位问题原因。
  4. (可选)如果用户更新了数据源,可以重新导入数据。
    1. 单击“数据导入报告”后的“执行”,重新进行数据导入。
      图2 重新导入数据
      表1 参数解释

      参数

      说明

      导入画像

      选择是否导入画像。

      画像分为用户画像和物品画像, 分别用于存储客户输入的用户特征, 物品特征, 如果同一用户或物品有多条记录, 将会去重。

      导入宽表

      选择是否导入宽表。

      宽表为推荐系统内部格式, 以行为数据为主, 将行为数据中涉及到的用户数据和物品数据整合成一条数据。

      保留已有宽表

      选择对已有宽表是否保留。目前支持覆盖、是、否。

      开启调度

      开启调度,可按照您所设置的时间周期性的提交任务。

      • “调度周期”:调度周期可选“天”“周”
      • “调度类型”:包括自定义和间隔调度。
      • “开始调度时间”:选择具体的调度时间。可在此下拉框中勾选具体的时间点。
      • “时间间隔(小时)”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
    2. 设置完成后,单击“确定”,重新导入数据。

相关文档