更新时间:2024-05-06 GMT+08:00
分享

数据准备

乳腺癌数据集从UCI获取,该数据集只包含连续类型特征,因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集,用于准确评估横向联邦学习得到的模型准确率。此外由于原始的数据集较小,采用了Imbalanced-Learn中的SMOTE算法,进行了数据集的扩充。下表为扩充过后的数据集统计信息。

乳腺癌数据集统计信息。

统计量

取值

特征数目

30

xx医院的训练样本数目

7366

其他机构的训练样本数目

7366

测试集样本数目

7257

操作步骤

  1. 进入TICS服务控制台。
  2. 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。

    图1 前往计算节点

  1. 登录到计算节点后,进入数据管理并进行数据集发布。

    图2 数据管理中新建数据集

  2. 参考下图填写参数信息。(1)指定连接器为localConnector,选择数据文件的路径,填写数据名称;(2)字段配置中特征字段(x_{特征序号})均配置为字段类型:FLOAT,字段类别:特征,特征类型:连续;标签字段(label)配置为字段类型:INTEGER,字段类别:标签。

    图3 配置数据集参数

  3. 发布数据集。

    图4 发布数据集

    数据集发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。

相关文档