更新时间:2021-09-18 GMT+08:00
分享

数据准备

数据集中的数据导入特征工程后,可能存在空值、冗余、数据不足等情况,或者用户需要将多次导入的数据集实例进行数据联合。以上情况,都可以在数据准备中进行操作。当前数据准备包含的功能有:数据修复、数据过滤、数据联合、数据连接、数据去噪。

数据修复

用户可以在数据修复中对单列进行空值修复、无效值修复,以及根据取值范围进行修复,多列或者全选所有特征列进行空值修复。系统有默认的修复策略,用户也可以自行配置修复策略。操作步骤如下。

  1. 单击表头,选择需要进行数据修复的特征列。
  2. 单击“数据准备”,从下拉框中选择“数据修复”。

    弹出“数据修复”对话框。参数设置如下所示:

    • 检查“已选择特征”是否为用户选择的特征列。
    • 配置“修复策略”如表1所示。
      表1 修复策略配置

      参数

      参数说明

      NA值

      对特征列样本中的空值进行修复,修复策略有:

      • 丢弃:直接丢弃空值所在行。
      • 替换值:以用户指定的数值替换空值。

      系统默认丢弃空值。

      无效值

      对特征列样本中的无效值进行修复,修复策略有:

      • 丢弃:直接丢弃无效值所在行。
      • 替换值:以用户指定的数值替换无效值。

      系统默认丢弃无效值。

      取值范围

      对特征列样本中指定取值范围内的数据进行修复。

      用户配置样本数据的取值范围,系统丢弃取值范围之外的数据。

      系统默认不根据取值范围进行数据修复。

  3. 单击“确定”,执行数据修复。

数据过滤

用户可以配置单列特征的过滤方式和过滤规则,筛选掉冗余的样本数据行,或者仅保留有效的样本数据行。操作步骤如下。

  1. 单击表头,选择需要进行数据过滤的特征列。
  2. 单击“数据准备”,从下拉框中选择“数据过滤”。

    弹出“数据过滤”对话框。参数设置如下所示:

    • 检查“已选择特征”是否为用户选择的特征列。
    • 配置“过滤方式”和“过滤规则”如表2所示。
      表2 过滤策略配置

      参数

      参数说明

      过滤方式

      过滤方式有两种:

      • 保留行:保留符合过滤规则的样本数据行。
      • 丢弃行:丢弃符合过滤规则的样本数据行。

      过滤规则

      过滤规则根据样本数据值进行配置:

      • 大于:保留或丢弃大于指定值的样本数据行。
      • 小于:保留或丢弃小于指定值的样本数据行。
      • 等于:保留或丢弃等于指定值的样本数据行。

  3. 单击“确定”,执行数据过滤。

数据联合

特征工程数据联合的原理与数据集中数据联合的原理相同。具体请参见数据联合。特征工程以当前打开的特征工程的数据集实例为左表,“数据联合”对话框中数据集的数据为右表。

数据联合操作步骤如下。

  1. 单击“数据准备”,从下拉框中选择“数据联合”。

    弹出“数据联合”对话框。参数设置如下所示:
    • 在“数据集”、“数据实例”对应的下拉框中选择需要联合的数据集和数据集实例。

      系统会先将当前特征工程的数据集实例和设置的数据集实例进行自动匹配,并在“数据实例”框下方展示匹配结果。

    • 展开高级配置,用户可以在“已匹配特征”栏下查看系统自动匹配的特征记录。在“未匹配特征”栏下,用户可以根据界面展示的左表数据特征、左表数据类型、右表数据特征、右表数据类型,手动配置需要匹配的特征列,不同数据类型的特征无法匹配。如需取消匹配,可单击记录操作列的“取消匹配”。

  2. 单击“确定”,执行数据联合。

数据连接

特征工程数据连接的原理与数据集中数据连接的原理相同,具体请参见数据连接。特征工程的数据连接参数说明如下:

  • 当前打开的特征工程的数据集实例为左表,“数据连接”对话框中数据集的数据为右表。
  • 主键为左表的键值,外键为右表的键值。主键和外键必须相同。
  • 连接方式为leftouter、rightouter、inner、outer,与数据集中数据连接相同。

数据连接操作步骤如下。

  1. 单击表头,选中一列数据作为连接的参考列。
  2. 单击“数据准备”,从下拉框中选择“数据连接”。

    弹出“数据连接”对话框。参数设置如下所示:
    • “数据集”、“数据实例”对应的下拉框中选择需要连接的数据集和数据集版本作为右表。
    • 在“主键”下拉框中选择主键作为左表的ID,在“外键”下拉框中选择外键作为右表的ID。主键和外键必须相同。
    • 在“连接方式”下拉框中选择连接方式。

  3. 单击“确定”,执行数据连接。

数据去噪

用户可以通过数据去噪,筛选掉时间序列中的异常数据。噪声分析方法:

  1. 通过局部线性回归的方法对数据进行平滑处理,得到每个点对应的预测值。
  2. 通过观测值与预测值之间的误差error的3sigma确定误差上限,超出上限的点为噪声点。

系统会从原始数据中去除上述噪声点,并采用线性插值的方法对去除噪声的数据进行填充。操作步骤如下。

  1. 单击表头,选择需要数据去噪的特征列。
  2. 单击“数据准备”,从下拉框中选择“数据去噪”。

    弹出“数据去噪”对话框。检查“已选择特征”是否为用户选择的特征列。

  3. 单击“确定”,执行数据去噪。

相关文档