更新时间:2023-05-05 GMT+08:00
分享

二值化

概述

“二值化”节点用于将数值型的字段转换成二值化形式。

例如:数据集中有一列整型数据属性为“Age”,取值为:“20-40”,设置阈值为30。二值化后当“Age”小于等于“30”时,“Age”这一列的取值就为“0”;当“Age”大于“30”时,“Age”这一列的取值就为“1”。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

数据集

参数说明

参数

子参数

参数说明

input_col

-

输入列名

output_col

-

对应的输出列名

threshold

-

阈值,列中大于该值的设置为1,小于该值的设置为0

样例

inputs = {
    "dataframe": None  # @input {"label":"dataframe","type":"DataFrame"}
}
params = {
    "inputs": inputs,
    "b_output_action": True,
    "outer_pipeline_stages": None,
    "input_col": "",  # @param {"label":"input_col","type":"string","required":"true","helpTip":""}
    "output_col": "binarizered_feature",  # @param {"label":"output_col","type":"string","required":"true","helpTip":""}
    "threshold": 0.0  # @param {"label":"threshold","type":"number","required":"true","range":"(none,none)","helpTip":""}
}
binarizer____id___ = MLSBinarizer(**params)
binarizer____id___.run()
# @output {"label":"dataframe","name":"binarizer____id___.get_outputs()['output_port_1']","type":"DataFrame"}

分享:

    相关文档

    相关产品