更新时间:2023-05-16 GMT+08:00
分享

混淆矩阵

概述

混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。

True Positive(TP):真正类。样本的真实类别是正类,并且模型识别的结果也是正类;

False Negative(FN):假负类。样本的真实类别是正类,但是模型将其识别为负类;

False Positive(FP):假正类。样本的真实类别是负类,但是模型将其识别为正类;

True Negative(TN):真负类。样本的真实类别是负类,并且模型将其识别为负类。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象,必须为分类模型的预测结果。

输出

参数

子参数

参数说明

output

output_port_1

output为字典类型,output_port_1为混淆矩阵dataframe。

output

output_port_1

output为字典类型,output_port_2为具体分类指标dataframe。

参数说明

参数

是否必选

参数说明

默认值

label_col

数据中的标签列。

prediction_index_col

代表标签编码后的预测结果的列名,需要与mls中各种分类算子预测结果列保持一致。

"prediction_index"

label_index_col

经过标签编码后的标签列。

"label_index"

probability_col

预测结果的分类概率列。

"probability"

threshold

分类阈值,二分类场景下可设置,支持向量机SVM算法不支持。

0.5

positive_category

二分类任务的正样本。

样例

数据样本

鸢尾花数据集,species列代表鸢尾花种类,共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别,每种类别样本数量为50。

配置流程

运行流程

参数设置

结果查看

分享:

    相关文档

    相关产品