更新时间:2021-09-18 GMT+08:00
分享

数据采样

如果数据量太大,造成特征操作等待的时间长,用户可以通过采样功能减少特征处理的数据量,提升特征处理的速度。

数据采样提供如下两种方式,请根据实际情况进行选择:

  • 随机采样:按照比例进行样本数据的随机采样。
  • 分层采样:如果一个特征或多个特征组合样本值的类型多样,为保证采样数据的多样性,可以对不同类型的数据分别设置采样比例。

数据采样有如下两个入口:

  • 在JupyterLab环境编辑界面,单击界面右上角的图标,选择“数据处理 > 数据采样”。下文采样步骤使用此入口进行描述。
  • JupyterLab环境编辑区的“随机采样”、“分层采样”快捷入口。

随机采样

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据采样 > 随机采样”,界面新增“随机采样”内容。

    参数说明,如表1所示。

    表1 参数说明

    参数

    参数说明

    采样比例

    数据采样比例,取值范围(0,1)。请根据实际情况设置。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“随机采样”代码框内容。

分层采样

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据采样 > 分层采样”,界面新增“分层采样”内容。

    对应参数说明,如表2所示。

    表2 参数说明

    参数

    参数说明

    列筛选方式

    特征列的筛选方式,有如下两种:

    • 列选择
    • 正则匹配

    列名

    列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。

    正则表达式

    列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式设置特征列。

    fractions

    为不同数据类型的样本数据,分别设置采样比例。

    示例:{(0,): 0.2, (1,): 0.8},其中(0,)和(1,)分别为特征列的组合样本数据。

    seed

    改变随机数生成器生成随机数的种子。取值必须为整数。

    默认值为空,即不对分层采样产生影响。seed值不固定的时候,每次采样出来的样本数量,以及每层采的哪些行都是不固定的。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  2. 单击图标,运行“分层采样”代码框内容。

相关文档