乳腺癌数据集作业结果
本节实验包含了如下三个部分:(1)训练轮数对联邦学习模型分类性能的影响;(2)迭代次数对联邦学习模型分类性能的影响;(3)参与方数据量不同时,本地独立训练对比横向联邦的模型性能。
训练轮数 |
1 |
10 |
20 |
---|---|---|---|
测试集准确率 (%) |
98.016 |
98.016 |
98.016 |
测试集AUC |
0.996 |
0.996 |
0.996 |
训练时长 (秒) |
19 |
173 |
372 |
迭代轮数对模型准确率、训练时长的影响(训练轮数固定为10)
迭代次数 |
10 |
25 |
50 |
---|---|---|---|
测试集准确率 (%) |
97.065 |
98.140 |
98.415 |
测试集AUC |
0.995 |
0.996 |
0.997 |
训练时长 (秒) |
166 |
167 |
216 |
从上面两张表可以看出:
(1)训练轮数对于联邦学习模型的性能影响不大,这主要是由于乳腺癌数据集的分类相对简单,且数据集经过了扩充导致的;
(2)增大每个参与方本地模型训练的迭代次数,可以显著提升最终联邦学习模型的性能。
- 参与方数据量不同时,独立训练对比横向联邦训练的准确率
本节实验不再将训练集均匀划分到两个参与方,而是以不同的比例进行划分,从而探究当参与方数据量不同时,模型性能的变化情况。具体划分如下所示。实验中训练轮数固定为10,迭代次数固定为50。
参与方持有的样本数目信息
Host所持样本占比(%) |
Host样本数 |
Guest样本数 |
---|---|---|
0.2 |
2946 |
11786 |
0.4 |
5892 |
8840 |
0.6 |
8839 |
5893 |
0.8 |
11785 |
2947 |
下图为当Host方拥有不同数据量时,使用横向联邦对比己方独立训练的性能对比。
结论为:使用横向联邦学习,在己方拥有不同数据量的情况下都可以显著提升模型性能。