数据合并
数据连接
数据连接是将特征列维度不完全相同的数据集连接成一份数据。数据集特征不完全相同的原因,比如现网中不同 系统采集的数据。其原理与“数据集”界面的数据连接原理相同,具体请参见数据连接。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据合并 > 数据连接”,界面新增“数据连接”内容。
对应参数说明,如表1所示。
表1 参数说明 参数
参数说明
右数据
当前算法工程绑定的数据为左数据,需要输入进行数据连接的右数据。
主键
左数据和右数据通过“主键”进行数据匹配。单击“”设置主键。
连接方式
数据连接的方式。
包含如下选项:
- left:返回所有左表数据和左表匹配的右表数据,右表无法匹配的数据用“NULL”补齐。
- right:返回所有右表数据和右表匹配的左表数据,左表无法匹配的数据用“NULL”补齐。
- outer:仅返回左表和右表匹配的数据,不匹配的左表和右表数据全部丢弃。
- inner:对左表和右表进行数据匹配,并返回左表和右表全量数据,左表或右表匹配不上的全部用“NULL”补齐。
左数据列名后缀
左数据中与右数据重复的特征列,加后缀名。支持自定义。
右数据列名后缀
右数据中与左数据重复的特征列,加后缀名。支持自定义。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击图标,运行“数据连接”代码框内容。
数据联合
数据样本量不足,则无法训练出具有一定泛化能力的模型,模型训练服务支持具有相同特征维度的数据集进行数据联合,以扩大样本量。
操作步骤如下所示。
- 单击界面右上角的图标,选择“数据处理 > 数据合并 > 数据联合”,界面新增“数据联合”内容。
对应参数说明,如表2所示。
- 单击图标,运行“数据联合”代码框内容。