更新时间:2021-09-18 GMT+08:00
分享

数据合并

数据连接

数据连接是将特征列维度不完全相同的数据集连接成一份数据。数据集特征不完全相同的原因,比如现网中不同 系统采集的数据。其原理与“数据集”界面的数据连接原理相同,具体请参见数据连接

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据合并 > 数据连接”,界面新增“数据连接”内容。

    对应参数说明,如表1所示。

    表1 参数说明

    参数

    参数说明

    右数据

    当前算法工程绑定的数据为左数据,需要输入进行数据连接的右数据。

    主键

    左数据和右数据通过“主键”进行数据匹配。单击“”设置主键。

    连接方式

    数据连接的方式。

    包含如下选项:

    • left:返回所有左表数据和左表匹配的右表数据,右表无法匹配的数据用“NULL”补齐。
    • right:返回所有右表数据和右表匹配的左表数据,左表无法匹配的数据用“NULL”补齐。
    • outer:仅返回左表和右表匹配的数据,不匹配的左表和右表数据全部丢弃。
    • inner:对左表和右表进行数据匹配,并返回左表和右表全量数据,左表或右表匹配不上的全部用“NULL”补齐。

    左数据列名后缀

    左数据中与右数据重复的特征列,加后缀名。支持自定义。

    右数据列名后缀

    右数据中与左数据重复的特征列,加后缀名。支持自定义。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“数据连接”代码框内容。

数据联合

数据样本量不足,则无法训练出具有一定泛化能力的模型,模型训练服务支持具有相同特征维度的数据集进行数据联合,以扩大样本量。

操作步骤如下所示。

  1. 单击界面右上角的图标,选择“数据处理 > 数据合并 > 数据联合”,界面新增“数据联合”内容。

    对应参数说明,如表2所示。

    表2 参数说明

    参数

    参数说明

    数据列表

    需要进行数据联合的数据,多份数据以逗号分隔。

    当前操作流

    从下拉框中选择当前数据操作流的名字。

    操作流变量名

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。

  1. 单击图标,运行“数据联合”代码框内容。

相关文档