迁移学习
如果当前数据集的特征数据不够理想,而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候,可以使用特征迁移功能,将理想数据集的特征数据迁移到当前数据集中。
进行特征迁移前,请先完成如下操作:
![](https://support.huaweicloud.com/usermanual-naie-model-training/public_sys-resources/caution_3.0-zh-cn.png)
请按照本节的操作顺序在算法工程中完成数据迁移,若其中穿插了其他数据操作,需要保证有前后衔接关系的两个代码框的dataflow名字一致。
绑定源数据
- 进入迁移数据JupyterLab环境编辑界面,运行“Import sdk”代码框。
- 单击界面右上角的
图标,选择“迁移学习 > 特征迁移 > 特征准备 > 绑定源数据”。界面新增“绑定迁移前的源数据”内容。
对应参数说明,如表1所示。 - 单击
图标,运行“绑定迁移前的源数据”代码框内容。
绑定目标数据
- 单击界面右上角的
图标,选择“迁移学习 > 特征迁移 > 特征准备 > 绑定目标数据”。界面新增“绑定迁移前的目标数据”内容。
对应参数说明,如表2所示。
- 单击
图标,运行“绑定迁移前的目标数据”代码框内容。
评估迁移数据
在使用迁移算法对数据进行迁移前,可以使用评估迁移数据功能评估当前数据是否适合迁移。
- 单击界面右上角的
图标,选择“迁移学习 > 特征迁移 > 迁移评估 > 评估迁移数据”。界面新增“评估迁移数据”内容。
对应参数说明,如表3所示。
- 根据实际源数据集和目标数据集标签列的值修改左侧代码区域中“# Select data from dataframe”下SX和TX的值。
- 单击
图标,运行“评估迁移数据”代码框内容。
评估迁移算法
如果评估迁移数据的结果为当前数据适合迁移,可以使用评估迁移算法评估当前数据适合采用哪种算法进行迁移。
- 单击界面右上角的
图标,选择“迁移学习 > 特征迁移 > 迁移评估 > 评估迁移算法”。界面新增“评估迁移算法”内容。
对应参数说明,如表4所示。
- 根据实际源数据集和目标数据集标签列的值修改左侧代码区域中“# Select data from dataframe”下SX、SY和TX的值。
- 单击
图标,运行“评估迁移算法”代码框内容。
迁移操作
当前系统支持的迁移算法有:CMF、CORAL、GFK、ITL、KMM、LSDT、MSDA、PCA、RANDPROJ、SA、TCA,每种算法不需要另外设置参数,只需用户根据实际源数据和目标数据的标签列修改代码框左侧“# Select data from dataframe”标注下的对应值。
本文以使用“CMF”方法为例。
生成源数据实例
- 单击界面右上角的
图标,选择“迁移学习 > 特征迁移 > 生成数据 > 生成源数据实例”。界面新增“生成迁移后的源数据实例”内容。
对应参数说明,如表6所示。
- 单击
图标,运行“生成迁移后的源数据实例”代码框内容。
生成目标数据实例
- 单击界面右上角的
图标,选择“迁移学习 > 特征迁移 > 生成数据 > 生成目标数据实例”。界面新增“生成迁移后的目标数据实例”内容。
对应参数说明,如表7所示。
- 单击
图标,运行“生成迁移后的目标数据实例”代码框内容。