更新时间:2024-11-12 GMT+08:00
分享

乳腺癌数据集作业结果

本节实验包含了如下三个部分:(1)训练轮数对联邦学习模型分类性能的影响;(2)迭代次数对联邦学习模型分类性能的影响;(3)参与方数据量不同时,本地独立训练对比横向联邦的模型性能。

  • 不同训练参数对模型准确率、训练时长的影响

    训练轮数对模型准确率的影响(迭代次数固定为20)

训练轮数

1

10

20

测试集准确率 (%)

98.016

98.016

98.016

测试集AUC

0.996

0.996

0.996

训练时长 (秒)

19

173

372

迭代轮数对模型准确率、训练时长的影响(训练轮数固定为10)

迭代次数

10

25

50

测试集准确率 (%)

97.065

98.140

98.415

测试集AUC

0.995

0.996

0.997

训练时长 (秒)

166

167

216

从上面两张表可以看出:

(1)训练轮数对于联邦学习模型的性能影响不大,这主要是由于乳腺癌数据集的分类相对简单,且数据集经过了扩充导致的;

(2)增大每个参与方本地模型训练的迭代次数,可以显著提升最终联邦学习模型的性能。

  • 参与方数据量不同时,独立训练对比横向联邦训练的准确率

    本节实验不再将训练集均匀划分到两个参与方,而是以不同的比例进行划分,从而探究当参与方数据量不同时,模型性能的变化情况。具体划分如下所示。实验中训练轮数固定为10,迭代次数固定为50。

    参与方持有的样本数目信息

Host所持样本占比(%)

Host样本数

Guest样本数

0.2

2946

11786

0.4

5892

8840

0.6

8839

5893

0.8

11785

2947

下图为当Host方拥有不同数据量时,使用横向联邦对比己方独立训练的性能对比。

图1 Host方拥有不同数据量时,横向联邦对比对立训练的模型性能

结论为:使用横向联邦学习,在己方拥有不同数据量的情况下都可以显著提升模型性能。

相关文档