数据集操作
对于数据样本量不足,或者在一定场景下,比如将采集的不同系统或网元的数据合并成一份数据的时候,用户可以在“数据集”界面中执行数据连接和数据联合操作:
- 数据连接:将特征列维度不完全相同的两份数据,合并成一份数据,用于扩展特征维度。
- 数据联合:将两份数据合并成一份数据,用于增加样本量。
数据连接
数据连接可以将特征维度不完全相同,且必须至少一个特征是相同的数据集,通过数据连接,合并成一个具备更多特征列的数据集。
数据连接是基于主键字段列,即两个数据集的相同特征列,采用leftouter、rightouter、inner、outer连接方式,连接两个数据集实例。
数据连接的两份数据的键值必须相同,否则系统无法进行数据连接。
将两份数据分别理解为左表和右表。连接方式说明如下:
- leftouter:以左表为主,返回所有左表数据以及匹配的右表数据。右表重复字段名加后缀__duplicate。
- rightouter:以右表为主,返回所有右表数据以及匹配的左表数据。左表重复字段名加后缀__duplicate。
- inner:以左表为主,返回左表和右表同时匹配的数据。右表重复字段名加后缀__duplicate。
- outer:以左表为主,返回左表和右表所有的数据。右表重复字段名加后缀__duplicate。
以如下表1、表2为例,键值为ID列,则按照leftouter、rightouter、inner、outer连接后的返回值分别如表3、表4、表5、表6。
ID |
Name |
Height |
Name__duplicate |
Weight |
---|---|---|---|---|
7 |
D |
2 |
D |
5 |
9 |
E |
2 |
null |
null |
5 |
C |
2 |
C |
4 |
1 |
A |
1 |
null |
null |
3 |
B |
2 |
null |
null |
ID |
Name__duplicate |
Height |
Name |
Weight |
---|---|---|---|---|
7 |
D |
2 |
D |
5 |
5 |
C |
2 |
C |
4 |
2 |
null |
null |
A |
2 |
4 |
null |
null |
B |
3 |
ID |
Name |
Height |
Name__duplicate |
Weight |
---|---|---|---|---|
7 |
D |
2 |
D |
5 |
9 |
E |
2 |
null |
null |
5 |
C |
2 |
C |
4 |
1 |
A |
1 |
null |
null |
3 |
B |
2 |
null |
null |
2 |
null |
null |
A |
2 |
4 |
null |
null |
B |
3 |
数据连接操作步骤如下。
- 单击数据目录区域框中的,弹出“数据连接”对话框,如图1所示。
- 配置“数据连接”对话框参数:
- 主数据集:主数据集、主数据实例、键值。
- 扩展数据集:扩展数据集、扩展数据实例、键值。
- 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。
- 连接方式:leftouter、rightouter、inner、outer。
- 单击“确定”,执行数据连接。
数据连接完成后,系统在目标数据集下生成一个新数据集实例,名称即为目标数据名称。
数据联合
数据连接操作后,新生成的数据,其特征列会增多;数据联合操作后,数据集实例的样本量会增多。
数据联合,是合并两份数据的样本,合并后数据的样本量是两份数据样本量的总和。
左表和右表特征列数不一致时,按照如下情况处理:
- 左表特征列数多,右表不足的特征列补充空值。
- 右表特征列数多,以左表为准,删除右表多余的特征列。
- 单击“数据目录”区域框中的,弹出“数据联合”对话框,如图2所示。
- 配置“数据联合”对话框参数:
- 主数据集:主数据集、主数据实例。
- 扩展数据集:扩展数据集、扩展数据实例。
- 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。
- 展开高级配置,用户可以根据界面展示的左数据特征、左数据类型、右数据特征、右数据类型,手动配置需要匹配的特征列。
- 单击“确定”,执行数据联合。
数据联合完成后,系统在目标数据集下生成一份新数据,名称即为目标数据实例名称。