数据采样

如果数据量太大，造成特征操作等待的时间长，用户可以通过采样功能减少特征处理的数据量，提升特征处理的速度。

数据采样提供如下两种方式，请根据实际情况进行选择：

数据采样有如下两个入口：

操作步骤如下所示。

单击界面右上角的

图标，选择“数据处理 > 数据采样 > 随机采样”，界面新增“随机采样”内容。

参数说明，如表1所示。

表1 参数说明
参数	参数说明
采样比例	数据采样比例，取值范围(0,1)。请根据实际情况设置。
当前操作流	从下拉框中选择当前数据操作流的名字。
操作流变量名	如果存在多个数据操作流，可重命名操作流对象的变量名，以避免冲突。

操作步骤如下所示。

单击界面右上角的

图标，选择“数据处理 > 数据采样 > 分层采样”，界面新增“分层采样”内容。

对应参数说明，如表2所示。

表2 参数说明
参数	参数说明
列筛选方式	特征列的筛选方式，有如下两种：列选择正则匹配
列名	列筛选方式为“列选择”时展示，请根据实际情况，单击“”设置单列或者多列。
正则表达式	列筛选方式为“正则匹配”时展示，请根据实际情况输入正则表达式设置特征列。
fractions	为不同数据类型的样本数据，分别设置采样比例。示例：{(0,): 0.2, (1,): 0.8}，其中(0,)和(1,)分别为特征列的组合样本数据。
seed	改变随机数生成器生成随机数的种子。取值必须为整数。默认值为空，即不对分层采样产生影响。seed值不固定的时候，每次采样出来的样本数量，以及每层采的哪些行都是不固定的。
当前操作流	从下拉框中选择当前数据操作流的名字。
操作流变量名	如果存在多个数据操作流，可重命名操作流对象的变量名，以避免冲突。