数据质量
数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。
前提条件
- 已将离线数据上传至OBS桶中。
创建数据质量作业
创建数据质量操作步骤如下:
- 在“离线作业”下,单击“数据质量”页签,单击上方“创建”,进入“创建数据质量”页面。
- 在“创建数据质量”页面,单击“添加数据质量算子”选择“数据质量检测算子”。
- 填写基本信息并选择计算引擎。您可以根据实际情况填写“名称”、“场景”和“描述”信息。其中“场景”信息可选择您在全局配置页面创建的场景。
- 填写参数配置,参数说明请参见表1。
图1 创建数据质量检测作业
表1 数据质量检测算子参数说明 参数名称
说明
结果保存路径
数据质量检测日志的保存路径。包括错误数据输出及定位等。
全局特征信息文件
用户在使用数据质量检测算子之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线服务都会用到该文件。全局特征信息文件需要和画像中字段一致,其中BASIC_INFO为画像表中定义的基本属性字段,TAGS为画像表中定义的带权重的标签,Context为上下文属性。该文件用于说明数据字段信息,以便推荐系统识别用户离线数据,通过特征工程将对应的数据写入到画像中,同时用于排序训练和线上推理服务中使用。
文件数据信息请参见全局特征信息文件数据格式。
当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。
数据源
数据在OBS的存放路径。
“初始格式”:包括离线数据准备的用户属性表、物品属性表和用户操作行为表。
“通用格式”:通用格式数据为经过特征工程作业生成的数据。
- (可选)单击页面右侧“删除”,可以删除该算子。
- 设置完成后,单击“确定”。数据质量检测作业一般需要运行一段时间,请您耐心等待。您可以前往数据质量作业列表,查看作业的基本情况。在作业列表中,刚创建的离线作业“状态”为“计算中”,当离线作业的“状态”变为“计算成功”时,表示作业运行结束,检测完的数据将使用于离线作业。当离线作业的“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。