数据清洗
去除空值
如果特征列中存在空值,“去除空值”操作可以去除掉空值所在行的样本数据。
去除空值有如下两个入口:
- 单击JupyterLab环境编辑界面右上角的图标,选择“数据处理 > 数据清洗 > 去除空值”。下文去除空值步骤使用此入口进行描述。
- JupyterLab环境编辑区的“去除空值”快捷入口。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 去除空值”,界面新增“去除空值”内容。
对应参数说明,如表1所示。
表1 参数说明 参数
参数说明
列筛选方式
特征列的筛选方式,有如下两种:
- 列选择
- 正则匹配
列名
列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。
正则表达式
列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。
列关系
去除空值和特征列的关系。
取值如下所示:
- all:如果一行数据,满足设置列中的所有特征列均为空值,则丢弃此行数据。
- any:如果一行数据,满足设置列中的任一特征列有空值,则丢弃此行数据。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“去除空值”代码框内容。
空值填充
如果样本数据量较少,或者用户可以根据特征等信息推断出实际的样本值,则可通过“空值填充”操作,替换空值。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 空值填充”,界面新增“空值填充”内容。
对应参数说明,如表2所示。
- 单击图标,运行“空值填充”代码框内容。
数据替换
如果特征列中的数据有误或者与用户的心理预期不符,用户可以通过“数据替换”批量替换错误的数据。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 数据替换”,界面新增“数据替换”内容。
对应参数说明,如表3所示。
- 单击图标,运行“数据替换”代码框内容。
数据映射
将特征列中的数据映射替换为用户需要的数据后,生成一个新的特征列。原有特征列不受影响,仍然保留。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 数据映射”,界面新增“数据映射”内容。
对应参数说明,如表4所示。
- 单击图标,运行“数据映射”代码框内容。
数据过滤
如果提供的数据存在一定的误差,比如只能为正数的特征,存在一部分负值,可通过“数据过滤”的方式将负值所在行都丢弃掉。
操作步骤如下所示。
数据过滤有如下两个入口:
- 单击JupyterLab环境编辑界面右上角的图标,选择“数据处理 > 数据清洗 > 数据过滤”。
- JupyterLab环境编辑区的“数据过滤”快捷入口。
- 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 数据过滤”,界面新增“数据过滤”内容。
对应参数说明,如表5所示。
表5 参数说明 参数
参数说明
列筛选方式
特征列的筛选方式,有如下两种:
- 列选择
- 正则匹配
列名
列筛选方式设置为“列选择”时才会展示。
通过单击“”图标,在弹出的对话框中,选择一个或者多个特征列。
正则表达式
列筛选方式设置为“正则匹配”时才会展示。
请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。
表达式
数据过滤的表达式。
如果对单列数据进行过滤,可使用符号(>,>=,<,<=,==)进行过滤。示例如下所示,其余依次类推。
- 取大于0的数据:col(columns[0]) > 0
- 取等于2的数据:col(columns[0]) == 2
如果对多列数据进行过滤,可使用符号(f_and,f_or,f_not等符号)进行过滤。示例如下所示,其余依次类推。
- 取两列值相等的数据:(col(columns[0])) == (col(columns[1]) )
- 取两列值均是2的数据:f_and((col(columns[0]) == 2), (col(columns[1]) == 2))
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“数据过滤”代码框内容。
去重
如果特征列中存在重复的数据,可通过“去重”操作,删除数据重复的样本行。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据清洗 > 去重”,界面新增“去重”内容。
对应参数说明,如表6所示
- 单击图标,运行“去重”代码框内容。