文档首页/ 可信智能计算服务 TICS/ 开发指南/ 使用场景/ 横向联邦学习场景/ 测试步骤/ 数据准备

更新时间：2024-11-12 GMT+08:00

数据准备

乳腺癌数据集从UCI获取，该数据集只包含连续类型特征，因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景，将数据集随机划分为三个大小类似的部分：（1）xx医院的训练集；（2）其他机构的训练集；（3）独立的测试集，用于准确评估横向联邦学习得到的模型准确率。此外由于原始的数据集较小，采用了Imbalanced-Learn中的SMOTE算法，进行了数据集的扩充。下表为扩充过后的数据集统计信息。

乳腺癌数据集统计信息。

统计量	取值
特征数目	30
xx医院的训练样本数目	7366
其他机构的训练样本数目	7366
测试集样本数目	7257

操作步骤

进入TICS服务控制台。
在计算节点管理中，找到购买的计算节点，通过登录地址，进入计算节点控制台。

图1 前往计算节点

登录到计算节点后，进入数据管理并进行数据集发布。

图2 数据管理中新建数据集
参考下图填写参数信息。（1）指定连接器为localConnector，选择数据文件的路径，填写数据名称；（2）字段配置中特征字段（x_{特征序号}）均配置为字段类型：FLOAT，字段类别：特征，特征类型：连续；标签字段（label）配置为字段类型：INTEGER，字段类别：标签。

图3 配置数据集参数
发布数据集。

图4 发布数据集

数据集发布的过程并不会直接从数据源中导出用户数据，仅从数据源处获取了数据集相关的元数据信息，用于任务的解析、验证等。

父主题： 测试步骤

上一篇：测试步骤

下一篇：训练型横向联邦作业流程

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问