更新时间:2023-05-16 GMT+08:00
分享

离散特征分析

概述

离散值特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

参数

子参数

参数说明

output

output_cnt_table

指向一个pyspark的DataFrame类型对象,该对象中包含各个特征及其取值的统计信息

output

output_value_table

指向一个pyspark的DataFrame类型对象,该对象中包含各个特征的gini,entropy,gini gain,information gain,information gain ratio指标

output

output_enum_value_table

指向一个pyspark的DataFrame类型对象,该对象中包含各个特征取值的gini,entropy指标

参数说明

参数

是否必选

参数说明

默认值

feature_cols

待分析的特征名称

""

label_col

标签列的名称

""

enable_sparse

输入数据是否为稀疏格式,取值为{true,false}

false

kv_delimiter

当输入数据为稀疏格式时,kv对之间的分隔符

":"

item_delimiter

当输入数据为稀疏格式时,key和value之间的分隔符

","

sparse_feature_list

稀疏格式的特征名称

""

样例

数据样本

f1,f2,label
1,1,0
1,1,1
1,1,1
1,0,1
1,0,1
2,0,0
2,0,1

配置流程

运行流程

图1 运行流程

参数设置

图2 参数设置

查看结果

output_cnt_table:

col_name,col_value,label_value,cnt
f2,1,1,2
f2,1,0,1
f2,0,1,3
f2,0,0,1
f1,1,1,4
f1,1,0,1
f1,2,0,1
f1,2,1,1

output_value_table:

col_name,feature_gini,feature_entropy,feature_gini_gain,feature_entropy_gain,feature_entropy_ratio
f2,0.40476190476190477,0.8571428571428571,0.003401360544217691,0.0059777114237739015,0.006925696874193348
f1,0.37142857142857133,0.8013772106338303,0.03673469387755113,0.061743357932800724,0.07153503251039055

output_enum_value_table:

col_name,col_value,feature_value_gini,feature_value_entropy
f2,1,0.19047619047619047,0.39355535745192405
f1,1,0.22857142857142845,0.5156629249195446
f2,0,0.21428571428571427,0.46358749969093305
f1,2,0.14285714285714285,0.2857142857142857

相关文档