更新时间:2022-08-05 GMT+08:00
分享

数据质量

数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。

前提条件

  • 已将离线数据上传至OBS桶中。

创建数据质量作业

创建数据质量操作步骤如下:

  1. “离线作业”下,单击“数据质量”页签,单击上方“创建”,进入“创建数据质量”页面。
  2. “创建数据质量”页面,单击“添加数据质量算子”选择“数据质量检测算子”
    1. 填写基本信息并选择计算引擎。您可以根据实际情况填写“名称”“场景”“描述”信息。其中“场景”信息可选择您在全局配置页面创建的场景。
    2. 填写参数配置,参数说明请参见表1
      图1 创建数据质量检测作业
      表1 数据质量检测算子参数说明

      参数名称

      说明

      结果保存路径

      数据质量检测日志的保存路径。包括错误数据输出及定位等。

      全局特征信息文件

      用户在使用数据质量检测算子之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线服务都会用到该文件。全局特征信息文件需要和画像中字段一致,其中BASIC_INFO为画像表中定义的基本属性字段,TAGS为画像表中定义的带权重的标签,Context为上下文属性。该文件用于说明数据字段信息,以便推荐系统识别用户离线数据,通过特征工程将对应的数据写入到画像中,同时用于排序训练和线上推理服务中使用。

      文件数据信息请参见全局特征信息文件数据格式

      当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。

      数据源

      数据在OBS的存放路径。

      “初始格式”:包括离线数据准备的用户属性表、物品属性表和用户操作行为表。

      “通用格式”:通用格式数据为经过特征工程作业生成的数据。

  3. (可选)单击页面右侧“删除”,可以删除该算子。
  4. 设置完成后,单击“确定”。数据质量检测作业一般需要运行一段时间,请您耐心等待。您可以前往数据质量作业列表,查看作业的基本情况。在作业列表中,刚创建的离线作业“状态”“计算中”,当离线作业的“状态”变为“计算成功”时,表示作业运行结束,检测完的数据将使用于离线作业。当离线作业的“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。

相关文档