更新时间:2021-09-18 GMT+08:00
分享

数据采样

用户在执行特征操作前,可以先对数据进行采样。数据采样后,所有的特征操作都只对采样后的数据进行处理,可以减少特征操作处理的数据量,提升特征操作的处理速度。数据采样后,执行全量数据应用时,系统会将特征操作流应用在全量数据集上,生成经过特征处理后的新数据集,提供给模型训练使用。

仅支持对刚导入的数据进行数据采样,不支持对已执行过特征操作的数据进行数据采样。

数据采样操作步骤如下。

  1. 在特征工程首页,单击特征工程所在行,对应“操作”列的图标,进入特征操作界面。
  2. 单击,弹出“采样”对话框。
  3. 配置采样参数如表1所示。

    表1 采样参数设置

    参数名称

    参数描述

    采样方法

    数据样本采样的方法。

    包含如下方式:

    • 随机采样:随机选取指定数量的样本。
    • 随机百分比:随机选取指定百分比的样本。
    • 前N条:按照从前往后的顺序选取指定数量的样本。
    • 全量:选取全部样本。

    采样参数

    采样方法为“随机采样”或“前N条”时,取值为记录数;采样方法为“随机百分比”时,取值为百分比。

  4. 单击“确定”,系统提示“任务数据采样执行成功”,完成数据采样操作。

相关文档