更新时间:2021-09-18 GMT+08:00
分享

数据转换

重命名

对特征名称重命名。操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > 重命名”,界面新增“重命名”内容。

    对应参数说明,如表1所示。

    表1 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    单击“”选定待重命名的特征列,支持至少选择一个列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    新列名

    修改后的特征名称。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“重命名”代码框内容。

归一化

如果一个特征中大部分数据处在(0,100)之间,只有一个数值是10000,或者一个特征的数据分布的区间太长,都有可能会导致模型训练的效果不佳。可通过“归一化”操作将特征值映射到一定的数据区间内,以达到更好的模型训练效果。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > 归一化”,界面新增“归一化”内容。

    对应参数说明,如表2所示。

    表2 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,如果多列特征数据均需要归一化到同一数据区间,可单击“”同时选中多列特征名称。

    新列名

    默认为空,则直接在原特征列上面做归一化处理。如果设置“新列名”,则原特征列不变,新增经过归一化处理后的一列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    归一化最小值

    归一化后数据均大于“归一化最小值”。

    默认值:0。

    归一化最大值

    归一化后数据均小于“归一化最大值”。

    默认值:1。即特征归一化完成后,数据的区间为(0,1)。

    数据最小值

    需要做归一化处理的特征数据最小值或者特征理论上可以取到的最小值。如果用户输入,则直接从界面获取,否则后台自动计算特征数据最小值。

    默认值为“None”。即用户不输入数据最小值。

    数据最大值

    需要做归一化处理的特征数据最大值或者特征理论上可以取到的最大值。如果用户输入,则直接从界面获取,否则后台自动计算特征数据最大值。

    默认值为“None”。即用户不输入数据最大值。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“归一化”代码框内容。

数值化

如果特征不是数值型,不利于模型训练。可以通过数值化将其转换为数值型。数值化的思路是根据特征列的样本数据的种类进行编码,数值化后样本数据为取值范围在[0,样本数据种类-1]区间内的整型数据。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > 数值化”,界面新增“数值化”内容。

    对应参数说明,如表3所示。

    表3 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    特征名称。单击“”设置特征列,支持至少选择一列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    新列名

    如果设置新列名称,则数值化操作完成后,会生成新特征列,原有特征列保持不变;如果不设置“新列名”,数值化后直接覆盖原有特征列。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“数值化”代码框内容。

特征离散化

特征离散化是将特征列连续的样本数据离散化为[0,离散数量-1]区间内的整型数据。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > 特征离散化”,界面新增“特征离散化”内容。

    对应参数说明,如表4所示。

    表4 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    特征名称。单击“”设置特征列,支持至少选择一列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    新列名

    如果设置,则特征离散化后生成新特征列,原有特征列不变。如果不设置,则默认覆盖已有特征列。

    离散数量

    特征数据离散后的取值数量。

    Bins

    分桶个数。请根据实际情况设置。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“特征离散化”代码框内容。

One-hot编码

One-hot编码是根据特征列样本数据的种类对应拆分成相同数量的特征列,将原特征数据映射到新特征中,样本数据相同编码为1,不同编码为0。以特征“Sepal”的样本数据为(2,9,2,8,4)为例,One-hot编码后,会拆分成四列特征,每个特征的样本数据为:

  • Sepal_2:10100
  • Sepal_4:00001
  • Sepal_8:00010
  • Sepal_9:01000

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > One-hot编码”,界面新增“One-hot编码”内容。

    对应参数说明,如表5所示。

    表5 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    特征名称。单击“”设置特征列,支持至少设置一列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    列名前缀

    新生成的特征名称前缀。

    如果不设置,默认为当前特征名称。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“One-hot编码”代码框内容。

新增特征

新增特征是对已有特征列进行加、减、乘、除等操作后,生成的新特征。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > 新增特征”,界面新增“新增特征”内容。

    对应参数说明,如表6所示。

    表6 参数说明

    参数

    参数说明

    表达式

    生成新特征的表达式,目前支持对已有特征进行加减乘除、取余、幂方、取模等多种常见运算操作。

    支持对多列进行运算生成新特征。

    新列名

    新特征名称。

    在此列前

    输入特征名称,则新增的特征展示在此特征之前。

    默认值为空,说明新增特征默认放在数据最后一列展示。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“新增特征”代码框内容。

Box-Cox变换

用于连续的响应变量不满足正态分布时,进行数据变换,达到接近正态分布的目的。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数,进而确定应采取的数据变换形式。

使用Box-Cox变换的优点:

  • 数据得到的回归模型优于变换前的模型,变换可以使模型的解释力度等性能更加优良。
  • 降低偏度值,残差可以更好的满足正态性、独立性等假设前提,使其更加符合后续对数据分布的假设,降低了伪回归的概率。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据转换 > Box-Cox变换”,界面新增“Box-Cox变换”内容。

    对应参数说明,如表7所示。

    表7 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    特征名称。单击“”设置特征列,支持至少设置一列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。

    变换参数

    Box-Cox变换的变换参数值,需为数字,默认为空。如果为空,则自动寻找最优变换参数值;如果为数字,则“列名”选择的所有特征列均使用此值。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“Box-Cox变换”代码框内容。
分享:

    相关文档

    相关产品

close