数据采样
如果数据量太大,造成特征操作等待的时间长,用户可以通过采样功能减少特征处理的数据量,提升特征处理的速度。
数据采样提供如下两种方式,请根据实际情况进行选择:
- 随机采样:按照比例进行样本数据的随机采样。
- 分层采样:如果一个特征或多个特征组合样本值的类型多样,为保证采样数据的多样性,可以对不同类型的数据分别设置采样比例。
数据采样有如下两个入口:
- 在JupyterLab环境编辑界面,单击界面右上角的图标,选择“数据处理 > 数据采样”。下文采样步骤使用此入口进行描述。
- JupyterLab环境编辑区的“随机采样”、“分层采样”快捷入口。
分层采样
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据采样 > 分层采样”,界面新增“分层采样”内容。
对应参数说明,如表2所示。
表2 参数说明 参数
参数说明
列筛选方式
特征列的筛选方式,有如下两种:
- 列选择
- 正则匹配
列名
列筛选方式为“列选择”时展示,请根据实际情况,单击“”设置单列或者多列。
正则表达式
列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式设置特征列。
fractions
为不同数据类型的样本数据,分别设置采样比例。
示例:{(0,): 0.2, (1,): 0.8},其中(0,)和(1,)分别为特征列的组合样本数据。
seed
改变随机数生成器生成随机数的种子。取值必须为整数。
默认值为空,即不对分层采样产生影响。seed值不固定的时候,每次采样出来的样本数量,以及每层采的哪些行都是不固定的。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“分层采样”代码框内容。