数据准备
乳腺癌数据集从UCI获取,该数据集只包含连续类型特征,因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集,用于准确评估横向联邦学习得到的模型准确率。此外由于原始的数据集较小,采用了Imbalanced-Learn中的SMOTE算法,进行了数据集的扩充。下表为扩充过后的数据集统计信息。
乳腺癌数据集统计信息。
统计量 |
取值 |
---|---|
特征数目 |
30 |
xx医院的训练样本数目 |
7366 |
其他机构的训练样本数目 |
7366 |
测试集样本数目 |
7257 |
操作步骤
- 进入TICS服务控制台。
- 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。
图1 前往计算节点
- 登录到计算节点后,进入数据管理并进行数据集发布。
图2 数据管理中新建数据集
- 参考下图填写参数信息。(1)指定连接器为localConnector,选择数据文件的路径,填写数据名称;(2)字段配置中特征字段(x_{特征序号})均配置为字段类型:FLOAT,字段类别:特征,特征类型:连续;标签字段(label)配置为字段类型:INTEGER,字段类别:标签。
图3 配置数据集参数
- 发布数据集。
图4 发布数据集
数据集发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。