更新时间:2024-04-29 GMT+08:00
分享

过滤式特征选择

概述

过滤式特征选择根据特征对标签的重要性对特征进行筛选,特征重要性较高的特征,提升训练的精度和效率。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

参数

子参数

参数说明

output

output_feature_importance

dataframe类型的特征重要性结果

output

output_selected_dataframe

dataframe类型的特征筛选结果

参数说明

参数

是否必选

参数说明

默认值

feature_columns_str

特征列列名,支持多列用','分隔

"”

label_column

标签列列名

""

discretization_columns_str

需要进行离散化特征列列名,支持多列用','分隔

""

method

过滤选择的方法,取值如下:

  • IV:根据IV值计算特征的重要性,注:IV法仅支持2分类;
  • Gini增益:根据Gini增益计算特征重要性;
  • 信息增益:根据信息增益计算特征重要性;
  • Lasso:采用Lasso回归计算特征重要性;

""

select_feature_num

选择的TopN个特征,如果大于输入特征数,则输出所以特征

None

discretization_method

离散化连续特征方法,取值如下:

  • equidistant division:根据特征的最小、最大值等距离分隔

""

discretization_bin_num

离散化连续特征区间数量

None

is_sparse

是否是K:V的稀疏特征

False

kv_col

稀疏特征列名

""

item_spliter

K:V特征中每个item之间的分隔符

","

kv_spliter

K:V特征中每个key与value之间的分隔符

":"

样例一(常规数据)

数据样本

配置流程

运行流程

算法参数设置

查看结果

样例二(KV稀疏数据)

数据样本

配置流程

运行流程

算法参数设置

查看结果

分享:

    相关文档

    相关产品