混淆矩阵

混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值，矩阵的列表示预测值。

点击放大

True Positive（TP）：真正类。样本的真实类别是正类，并且模型识别的结果也是正类；

False Negative（FN）：假负类。样本的真实类别是正类，但是模型将其识别为负类；

False Positive（FP）：假正类。样本的真实类别是负类，但是模型将其识别为正类；

True Negative（TN）：真负类。样本的真实类别是负类，并且模型将其识别为负类。

参数	子参数	参数说明
inputs	dataframe	inputs为字典类型，dataframe为pyspark中的DataFrame类型对象，必须为分类模型的预测结果。

参数	子参数	参数说明
output	output_port_1	output为字典类型，output_port_1为混淆矩阵dataframe。
output	output_port_1	output为字典类型，output_port_2为具体分类指标dataframe。

参数	是否必选	参数说明	默认值
label_col	是	数据中的标签列。	无
prediction_index_col	是	代表标签编码后的预测结果的列名，需要与mls中各种分类算子预测结果列保持一致。	"prediction_index"
label_index_col	是	经过标签编码后的标签列。	"label_index"
probability_col	否	预测结果的分类概率列。	"probability"
threshold	否	分类阈值，二分类场景下可设置，支持向量机SVM算法不支持。	0.5
positive_category	否	二分类任务的正样本。	无