更新时间:2021-09-18 GMT+08:00
分享

迁移学习

如果当前数据集的特征数据不够理想,而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候,可以使用特征迁移功能,将理想数据集的特征数据迁移到当前数据集中。

进行特征迁移前,请先完成如下操作:

  • 将源数据集和目标数据集导入系统,详细操作请参见数据集
  • 创建迁移数据Jupyterlab算法工程,详细操作请参见创建特征工程

请按照本节的操作顺序在算法工程中完成数据迁移,若其中穿插了其他数据操作,需要保证有前后衔接关系的两个代码框的dataflow名字一致。

绑定源数据

  1. 进入迁移数据JupyterLab环境编辑界面,运行“Import sdk”代码框。
  2. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 特征准备 > 绑定源数据”。界面新增“绑定迁移前的源数据”内容。

    对应参数说明,如表1所示。
    表1 参数说明

    参数

    参数说明

    数据集

    迁移前源数据对应的数据集。

    数据集实例

    迁移前源数据的数据集实例。

    源数据引用变量名

    修改源数据引用变量名,以免和目标数据引用变量名产生冲突。当有多份数据需要迁移时,也可作为同类数据之间引用变量名的区分。

    源操作流变量名

    修改源操作流变量名,以免和目标操作流变量名产生冲突。当有多份数据需要迁移时,也可作为同类数据之间操作流变量名之间的区分。

  3. 单击图标,运行“绑定迁移前的源数据”代码框内容。

绑定目标数据

  1. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 特征准备 > 绑定目标数据”。界面新增“绑定迁移前的目标数据”内容。

    对应参数说明,如表2所示。

    表2 参数说明

    参数

    参数说明

    数据集

    迁移前目标数据对应的数据集。

    数据集实例

    迁移前目标数据的数据集实例。

    目标据引用变量名

    修改目标数据引用变量名,以免和源数据引用变量名产生冲突。当有多份数据需要迁移时,也可作为同类数据之间引用变量名的区分。

    目标操作流变量名

    修改目标操作流变量名,以免和源操作流变量名产生冲突。当有多份数据需要迁移时,也可作为同类数据之间操作流变量名之间的区分。

  2. 单击图标,运行“绑定迁移前的目标数据”代码框内容。

评估迁移数据

在使用迁移算法对数据进行迁移前,可以使用评估迁移数据功能评估当前数据是否适合迁移。

  1. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 迁移评估 > 评估迁移数据”。界面新增“评估迁移数据”内容。

    对应参数说明,如表3所示。

    表3 评估迁移数据参数说明

    参数

    参数说明

    源操作流变量名

    对应绑定迁移前源数据设置的源操作流变量名。

    目标操作流变量名

    对应绑定迁移前目标数据设置的目标操作流变量名。

  2. 根据实际源数据集和目标数据集标签列的值修改左侧代码区域中“# Select data from dataframe”下SX和TX的值。
  3. 单击图标,运行“评估迁移数据”代码框内容。

评估迁移算法

如果评估迁移数据的结果为当前数据适合迁移,可以使用评估迁移算法评估当前数据适合采用哪种算法进行迁移。

  1. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 迁移评估 > 评估迁移算法”。界面新增“评估迁移算法”内容。

    对应参数说明,如表4所示。

    表4 参数说明

    参数

    参数说明

    源操作流变量名

    对应绑定迁移前源数据设置的源操作流变量名。

    目标操作流变量名

    对应绑定迁移前目标数据设置的目标操作流变量名。

  2. 根据实际源数据集和目标数据集标签列的值修改左侧代码区域中“# Select data from dataframe”下SX、SY和TX的值。
  3. 单击图标,运行“评估迁移算法”代码框内容。

迁移操作

当前系统支持的迁移算法有:CMF、CORAL、GFK、ITL、KMM、LSDT、MSDA、PCA、RANDPROJ、SA、TCA,每种算法不需要另外设置参数,只需用户根据实际源数据和目标数据的标签列修改代码框左侧“# Select data from dataframe”标注下的对应值。

本文以使用“CMF”方法为例。

  1. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 迁移操作 > CMF”。

    界面新增如图1所示内容。

    图1 使用CMF算法迁移数据

    参数含义如表5所示。

    表5 使用CMF算法迁移数据参数说明

    参数

    参数说明

    源操作流变量名

    对应绑定迁移前源数据设置的源操作流变量名。

    目标操作流变量名

    对应绑定迁移前目标数据设置的目标操作流变量名。

  2. 根据实际源数据集和目标数据集标签列的值修改图1红框区域对应值。其中,S表示源数据,T表示目标数据,X表示数据特征,Y表示数据标签。
  3. 单击图标,运行“使用CMF算法迁移数据”代码框内容。

生成源数据实例

  1. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 生成数据 > 生成源数据实例”。界面新增“生成迁移后的源数据实例”内容。

    对应参数说明,如表6所示。

    表6 生成迁移后的源数据实例参数说明

    参数

    参数说明

    数据集

    迁移后源数据对应的数据集。

    数据集实例

    源数据迁移后生成的数据集实例名,可自定义命名。

  2. 单击图标,运行“生成迁移后的源数据实例”代码框内容。

生成目标数据实例

  1. 单击界面右上角的图标,选择“迁移学习 > 特征迁移 > 生成数据 > 生成目标数据实例”。界面新增“生成迁移后的目标数据实例”内容。

    对应参数说明,如表7所示。

    表7 生成迁移后的源数据实例参数说明

    参数

    参数说明

    数据集

    迁移后目标数据对应的数据集。

    数据集实例

    目标数据迁移后生成的数据集实例名,可自定义命名。

  2. 单击图标,运行“生成迁移后的目标数据实例”代码框内容。
分享:

    相关文档

    相关产品

close