更新时间:2023-05-05 GMT+08:00
分享

派生

概述

“派生”节点用于在数据集中生成任意可行的新属性字段,对现有数据的某个属性操作,例如2*某个属性、两个属性乘积等,允许用户自定义生成属性名称,并将生成的新属性字段添加到原数据集中。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

数据集

参数说明

参数

子参数

参数说明

derive_operators_str

-

派生操作组成的格式化字符串,例如:

"2*column_a as new_column_a"

"abs(column_a) as new_column_a;case when column_b > 50 then 1 else 0 end as new_column_b;column_c+column_d as new_column_cd"

样例

inputs = {
    "dataframe": None  # @input {"label":"dataframe","type":"DataFrame"}
}
params = {
    "inputs": inputs,
    "derive_operators_str": ""  # @param {"label":"derive_operators_str","type":"string","required":"true","helpTip": ""}
}
feature_derive____id___ = MLSFeatureDerive(**params)
feature_derive____id___.run()
# @output {"label":"dataframe","name":"feature_derive____id___.get_outputs()['output_port_1']","type":"DataFrame"}

相关文档