更新时间:2021-09-18 GMT+08:00
分享

数据清洗

去除空值

如果特征列中存在空值,“去除空值”操作可以去除掉空值所在行的样本数据。

去除空值有如下两个入口:

  • 单击JupyterLab环境编辑界面右上角的图标,选择“数据处理 > 数据清洗 > 去除空值”。下文去除空值步骤使用此入口进行描述。
  • JupyterLab环境编辑区的“去除空值”快捷入口。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 去除空值”,界面新增“去除空值”内容。

    对应参数说明,如表1所示。

    表1 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    列关系

    去除空值和特征列的关系。

    取值如下所示:

    • all:如果一行数据,满足设置列中的所有特征列均为空值,则丢弃此行数据。
    • any:如果一行数据,满足设置列中的任一特征列有空值,则丢弃此行数据。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“去除空值”代码框内容。

空值填充

如果样本数据量较少,或者用户可以根据特征等信息推断出实际的样本值,则可通过“空值填充”操作,替换空值。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 空值填充”,界面新增“空值填充”内容。

    对应参数说明,如表2所示。

    表2 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    填充为

    空值替换后的数据。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“空值填充”代码框内容。

数据替换

如果特征列中的数据有误或者与用户的心理预期不符,用户可以通过“数据替换”批量替换错误的数据。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 数据替换”,界面新增“数据替换”内容。

    对应参数说明,如表3所示。

    表3 数据替换参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    被替换值

    需要替换的数据。

    替换为

    替换后的数据。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“数据替换”代码框内容。

数据映射

将特征列中的数据映射替换为用户需要的数据后,生成一个新的特征列。原有特征列不受影响,仍然保留。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 数据映射”,界面新增“数据映射”内容。

    对应参数说明,如表4所示。

    表4 参数说明

    参数

    参数说明

    列名

    请根据实际情况,单击“”设置待映射特征列。仅支持设置单列。

    新列名

    输入经过数据映射后新生成的特征列名称。

    被替换值

    需要替换的数据。

    替换为

    替换后的数据。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“数据映射”代码框内容。

数据过滤

如果提供的数据存在一定的误差,比如只能为正数的特征,存在一部分负值,可通过“数据过滤”的方式将负值所在行都丢弃掉。

操作步骤如下所示。

数据过滤有如下两个入口:

  • 单击JupyterLab环境编辑界面右上角的图标,选择“数据处理 > 数据清洗 > 数据过滤”。
  • JupyterLab环境编辑区的“数据过滤”快捷入口。
  1. 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 数据过滤”,界面新增“数据过滤”内容。

    对应参数说明,如表5所示。

    表5 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式设置为“列选择”时才会展示。

    通过单击“”图标,在弹出的对话框中,选择一个或者多个特征列。

    正则表达式

    列筛选方式设置为“正则匹配”时才会展示。

    请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    表达式

    数据过滤的表达式。

    如果对单列数据进行过滤,可使用符号(>,>=,<,<=,==)进行过滤。示例如下所示,其余依次类推。

    • 取大于0的数据:col(columns[0]) > 0
    • 取等于2的数据:col(columns[0]) == 2

    如果对多列数据进行过滤,可使用符号(f_and,f_or,f_not等符号)进行过滤。示例如下所示,其余依次类推。

    • 取两列值相等的数据:(col(columns[0])) == (col(columns[1]) )
    • 取两列值均是2的数据:f_and((col(columns[0]) == 2), (col(columns[1]) == 2))

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“数据过滤”代码框内容。

去重

如果特征列中存在重复的数据,可通过“去重”操作,删除数据重复的样本行。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 去重”,界面新增“去重”内容。

    对应参数说明,如表6所示

    表6 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“去重”代码框内容。

相关文档