迁移学习

如果当前数据集的特征数据不够理想，而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候，可以使用特征迁移功能，将理想数据集的特征数据迁移到当前数据集中。

进行特征迁移前，请先完成如下操作：

请按照本节的操作顺序在算法工程中完成数据迁移，若其中穿插了其他数据操作，需要保证有前后衔接关系的两个代码框的dataflow名字一致。

单击界面右上角的

图标，选择“迁移学习 > 特征迁移 > 特征准备 > 绑定源数据”。界面新增“绑定迁移前的源数据”内容。

对应参数说明，如表1所示。

表1 参数说明
参数	参数说明
数据集	迁移前源数据对应的数据集。
数据集实例	迁移前源数据的数据集实例。
源数据引用变量名	修改源数据引用变量名，以免和目标数据引用变量名产生冲突。当有多份数据需要迁移时，也可作为同类数据之间引用变量名的区分。
源操作流变量名	修改源操作流变量名，以免和目标操作流变量名产生冲突。当有多份数据需要迁移时，也可作为同类数据之间操作流变量名之间的区分。

单击界面右上角的

图标，选择“迁移学习 > 特征迁移 > 特征准备 > 绑定目标数据”。界面新增“绑定迁移前的目标数据”内容。

对应参数说明，如表2所示。

表2 参数说明
参数	参数说明
数据集	迁移前目标数据对应的数据集。
数据集实例	迁移前目标数据的数据集实例。
目标据引用变量名	修改目标数据引用变量名，以免和源数据引用变量名产生冲突。当有多份数据需要迁移时，也可作为同类数据之间引用变量名的区分。
目标操作流变量名	修改目标操作流变量名，以免和源操作流变量名产生冲突。当有多份数据需要迁移时，也可作为同类数据之间操作流变量名之间的区分。

在使用迁移算法对数据进行迁移前，可以使用评估迁移数据功能评估当前数据是否适合迁移。

单击界面右上角的

图标，选择“迁移学习 > 特征迁移 > 迁移评估 > 评估迁移数据”。界面新增“评估迁移数据”内容。

对应参数说明，如表3所示。

表3 评估迁移数据参数说明
参数	参数说明
源操作流变量名	对应绑定迁移前源数据设置的源操作流变量名。
目标操作流变量名	对应绑定迁移前目标数据设置的目标操作流变量名。

如果评估迁移数据的结果为当前数据适合迁移，可以使用评估迁移算法评估当前数据适合采用哪种算法进行迁移。

单击界面右上角的

图标，选择“迁移学习 > 特征迁移 > 迁移评估 > 评估迁移算法”。界面新增“评估迁移算法”内容。

对应参数说明，如表4所示。

表4 参数说明
参数	参数说明
源操作流变量名	对应绑定迁移前源数据设置的源操作流变量名。
目标操作流变量名	对应绑定迁移前目标数据设置的目标操作流变量名。

当前系统支持的迁移算法有：CMF、CORAL、GFK、ITL、KMM、LSDT、MSDA、PCA、RANDPROJ、SA、TCA，每种算法不需要另外设置参数，只需用户根据实际源数据和目标数据的标签列修改代码框左侧“# Select data from dataframe”标注下的对应值。

本文以使用“CMF”方法为例。

单击界面右上角的

图标，选择“迁移学习 > 特征迁移 > 迁移操作 > CMF”。

界面新增如图1所示内容。

图1 使用CMF算法迁移数据
点击放大

参数含义如表5所示。

表5 使用CMF算法迁移数据参数说明
参数	参数说明
源操作流变量名	对应绑定迁移前源数据设置的源操作流变量名。
目标操作流变量名	对应绑定迁移前目标数据设置的目标操作流变量名。