乳腺癌数据集作业结果
本节实验包含了如下三个部分:(1)训练轮数对联邦学习模型分类性能的影响;(2)迭代次数对联邦学习模型分类性能的影响;(3)参与方数据量不同时,本地独立训练对比横向联邦的模型性能。
训练轮数 | 1 | 10 | 20 |
|---|---|---|---|
测试集准确率 (%) | 98.016 | 98.016 | 98.016 |
测试集AUC | 0.996 | 0.996 | 0.996 |
训练时长 (秒) | 19 | 173 | 372 |
迭代轮数对模型准确率、训练时长的影响(训练轮数固定为10)
迭代次数 | 10 | 25 | 50 |
|---|---|---|---|
测试集准确率 (%) | 97.065 | 98.140 | 98.415 |
测试集AUC | 0.995 | 0.996 | 0.997 |
训练时长 (秒) | 166 | 167 | 216 |
从上面两张表可以看出:
(1)训练轮数对于联邦学习模型的性能影响不大,这主要是由于乳腺癌数据集的分类相对简单,且数据集经过了扩充导致的;
(2)增大每个参与方本地模型训练的迭代次数,可以显著提升最终联邦学习模型的性能。
- 参与方数据量不同时,独立训练对比横向联邦训练的准确率
本节实验不再将训练集均匀划分到两个参与方,而是以不同的比例进行划分,从而探究当参与方数据量不同时,模型性能的变化情况。具体划分如下所示。实验中训练轮数固定为10,迭代次数固定为50。
参与方持有的样本数目信息
Host所持样本占比(%) | Host样本数 | Guest样本数 |
|---|---|---|
0.2 | 2946 | 11786 |
0.4 | 5892 | 8840 |
0.6 | 8839 | 5893 |
0.8 | 11785 | 2947 |
下图为当Host方拥有不同数据量时,使用横向联邦对比己方独立训练的性能对比。

结论为:使用横向联邦学习,在己方拥有不同数据量的情况下都可以显著提升模型性能。

