更新时间:2022-08-05 GMT+08:00
数据探索
数据探索介绍
数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。
数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
操作步骤
- 在“执行步骤”页签,单击数据探索下的“执行”。进入“数据探索”页面,确认页面信息后单击“是”。待状态为“已完成”时,完成数据格式的转化。
- 执行完成在页面下方会显示数据探索报告,包括“用户报表”、“物品报表”、“行为报表”和“画像查询”。
- 单击目标报表名称查看具体报表信息。
图1 查看报表
- 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。
- 百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。
图2 百分位数
- 分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各种标签的分布情况。
图3 分布统计
- 百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。
- 物品报表:根据不同数据格式展示物品数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。
- 行为报表:行为报表展示各种行为类型以及该数据中此行为出现的次数。
- 画像查询:可以查询指定的用户或物品画像信息,包括静态和动态。
- 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。
父主题: 数据质量管理