更新时间:2024-05-27 GMT+08:00
分享

数据集拆分

概述

将数据集按照比例或阈值拆分为两个子数据集。

输入

参数

子参数

参数说明

inputs

dataframe

pyspark中DataFrame类型的对象

输出

参数

子参数

参数说明

output

output_port_1

output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为拆分的子数据集1。

output

output_port_2

output_port_2为pyspark中的DataFrame类型对象,为拆分的子数据集2。

参数说明

参数

是否必选

参数说明

默认值

fraction

分割比例,比例值对应第一个数据集的行数

0.7

id_col

id列,按比例拆分的情况下,如果设置该列,则该列相同的样本不会被拆分,按阈值拆分则设置该列无效

threshold_col

用于阈值拆分的列。

thrshold

拆分阈值。

0.0

seed

随机数种子

1234

如果设置fraction,则按照比例拆分,阈值列和阈值设置无效。

样例

数据样本

鸢尾花数据集,species列代表鸢尾花种类,共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别,每种类别样本数量为50。

图1 数据样本

配置流程

运行流程

参数设置

图2 参数设置(按比例拆分)
图3 参数设置(按阈值拆分)

按petal_width列划分,小于等于2.0的数据划分至子数据集1,大于2.0的数据划分至子数据集2。

查看结果

  • 按比例拆分
    图4 子数据集1
    图5 子数据集2
  • 按阈值拆分
    图6 子数据集1
    图7 子数据集2

分享:

    相关文档

    相关产品