更新时间:2023-05-16 GMT+08:00
分享

皮尔森系数

概述

皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。选择输入的dataframe中的两列数值列,计算其皮尔森系数。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

参数

子参数

参数说明

output

output_port_1

dataframe类型的皮尔森系数结果

参数说明

参数

是否必选

参数说明

默认值

input_col1

皮尔森系数计算第一列列名

""

input_col2

皮尔森系数计算第二列列名

""

样例

数据样本

图1 数据样本

配置流程

运行流程

算法参数设置

查看结果

表1 查看运行结果

col1_name

col2_name

total

valid

pearson

f1

f2

10

10

0.9842079934534723

分享:

    相关文档

    相关产品