更新时间:2023-05-16 GMT+08:00
分享

gbdt编码模型训练

概述

利用训练好的gbdt分类模型对输入的特征进行离散化处理。对每棵树的叶子节点进行编码,预测的时候遍历到叶子节点对应位置的编码为1,该树其余节点的编码为0。该节点主要用于生产gbdt的分类模型,并存储到输入参数对应的位置上。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象,用于生成gbdt编码的模型

输出

参数

子参数

参数说明

outputs

output_port_1

指向一个pyspark的DataFrame类型对象,该对象为一个空的dataframe

参数说明

参数

是否必选

参数说明

默认值

input_features

输入的特征(需要编码的特征)

"feature"

label_column

预测结果类别的字段名

"label"

model_saved_path

模型保存的路径

""

max_iter

最大迭代次数(树的棵数)

4

max_depth

树的最大深度

5

subsampling_rate

构建单棵树的采样比例

1.0

feature_subset_strategy

构建单棵树的特征抽取策略,取值为"auto"、"all"

"auto"

样例

数据样本

label,age,count
1,20,23
0,19,33
0,21,24
1,7,24
0,11,43
1,32,12
0,21,43
1,32,45

配置流程

运行流程

参数设置

查看结果

分享:

    相关文档

    相关产品