数据准备
数据集中的数据导入特征工程后,可能存在空值、冗余、数据不足等情况,或者用户需要将多次导入的数据集实例进行数据联合。以上情况,都可以在数据准备中进行操作。当前数据准备包含的功能有:数据修复、数据过滤、数据联合、数据连接、数据去噪。
数据修复
用户可以在数据修复中对单列进行空值修复、无效值修复,以及根据取值范围进行修复,多列或者全选所有特征列进行空值修复。系统有默认的修复策略,用户也可以自行配置修复策略。操作步骤如下。
- 单击表头,选择需要进行数据修复的特征列。
- 单击“数据准备”,从下拉框中选择“数据修复”。
弹出“数据修复”对话框。参数设置如下所示:
- 检查“已选择特征”是否为用户选择的特征列。
- 配置“修复策略”如表1所示。
- 单击“确定”,执行数据修复。
数据过滤
用户可以配置单列特征的过滤方式和过滤规则,筛选掉冗余的样本数据行,或者仅保留有效的样本数据行。操作步骤如下。
- 单击表头,选择需要进行数据过滤的特征列。
- 单击“数据准备”,从下拉框中选择“数据过滤”。
弹出“数据过滤”对话框。参数设置如下所示:
- 检查“已选择特征”是否为用户选择的特征列。
- 配置“过滤方式”和“过滤规则”如表2所示。
- 单击“确定”,执行数据过滤。
数据联合
特征工程数据联合的原理与数据集中数据联合的原理相同。具体请参见数据联合。特征工程以当前打开的特征工程的数据集实例为左表,“数据联合”对话框中数据集的数据为右表。
数据联合操作步骤如下。
- 单击“数据准备”,从下拉框中选择“数据联合”。
- 单击“确定”,执行数据联合。
数据连接
特征工程数据连接的原理与数据集中数据连接的原理相同,具体请参见数据连接。特征工程的数据连接参数说明如下:
- 当前打开的特征工程的数据集实例为左表,“数据连接”对话框中数据集的数据为右表。
- 主键为左表的键值,外键为右表的键值。主键和外键必须相同。
- 连接方式为leftouter、rightouter、inner、outer,与数据集中数据连接相同。
数据连接操作步骤如下。
- 单击表头,选中一列数据作为连接的参考列。
- 单击“数据准备”,从下拉框中选择“数据连接”。
弹出“数据连接”对话框。参数设置如下所示:
- “数据集”、“数据实例”对应的下拉框中选择需要连接的数据集和数据集版本作为右表。
- 在“主键”下拉框中选择主键作为左表的ID,在“外键”下拉框中选择外键作为右表的ID。主键和外键必须相同。
- 在“连接方式”下拉框中选择连接方式。
- 单击“确定”,执行数据连接。
数据去噪
用户可以通过数据去噪,筛选掉时间序列中的异常数据。噪声分析方法:
- 通过局部线性回归的方法对数据进行平滑处理,得到每个点对应的预测值。
- 通过观测值与预测值之间的误差error的3sigma确定误差上限,超出上限的点为噪声点。
系统会从原始数据中去除上述噪声点,并采用线性插值的方法对去除噪声的数据进行填充。操作步骤如下。
- 单击表头,选择需要数据去噪的特征列。
- 单击“数据准备”,从下拉框中选择“数据去噪”。
弹出“数据去噪”对话框。检查“已选择特征”是否为用户选择的特征列。
- 单击“确定”,执行数据去噪。