数据集操作

对于数据样本量不足，或者在一定场景下，比如将采集的不同系统或网元的数据合并成一份数据的时候，用户可以在“数据集”界面中执行数据连接和数据联合操作：

数据连接可以将特征维度不完全相同，且必须至少一个特征是相同的数据集，通过数据连接，合并成一个具备更多特征列的数据集。

数据连接是基于主键字段列，即两个数据集的相同特征列，采用leftouter、rightouter、inner、outer连接方式，连接两个数据集实例。

数据连接的两份数据的键值必须相同，否则系统无法进行数据连接。

将两份数据分别理解为左表和右表。连接方式说明如下：

以如下表1、表2为例，键值为ID列，则按照leftouter、rightouter、inner、outer连接后的返回值分别如表3、表4、表5、表6。

表3 Leftouter数据连接
ID	Name	Height	Name__duplicate	Weight
7	D	2	D	5
9	E	2	null	null
5	C	2	C	4
1	A	1	null	null
3	B	2	null	null

表4 Rightouter数据连接
ID	Name__duplicate	Height	Name	Weight
7	D	2	D	5
5	C	2	C	4
2	null	null	A	2
4	null	null	B	3

表5 Inner数据连接
ID	Name	Height	Name__duplicate	Weight
7	D	2	D	5
5	C	2	C	4

表6 Outer数据连接
ID	Name	Height	Name__duplicate	Weight
7	D	2	D	5
9	E	2	null	null
5	C	2	C	4
1	A	1	null	null
3	B	2	null	null
2	null	null	A	2
4	null	null	B	3

数据连接操作步骤如下。

单击数据目录区域框中的，弹出“数据连接”对话框，如图1所示。

图1 数据连接界面
配置“数据连接”对话框参数：
- 主数据集：主数据集、主数据实例、键值。
- 扩展数据集：扩展数据集、扩展数据实例、键值。
- 目标数据集：目标数据集、目标数据实例。其中目标数据名称只能以字母（A~Z、a~z）开头，由字母、数字（0~9）、下划线（_）、中划线（-）组成，不能以下划线或中划线结尾，且长度为[1-128]个字符。
- 连接方式：leftouter、rightouter、inner、outer。
单击“确定”，执行数据连接。

数据连接完成后，系统在目标数据集下生成一个新数据集实例，名称即为目标数据名称。

数据连接操作后，新生成的数据，其特征列会增多；数据联合操作后，数据集实例的样本量会增多。

数据联合，是合并两份数据的样本，合并后数据的样本量是两份数据样本量的总和。

左表和右表特征列数不一致时，按照如下情况处理：

单击“数据目录”区域框中的，弹出“数据联合”对话框，如图2所示。

图2 数据联合界面
配置“数据联合”对话框参数：
- 主数据集：主数据集、主数据实例。
- 扩展数据集：扩展数据集、扩展数据实例。
- 目标数据集：目标数据集、目标数据实例。其中目标数据名称只能以字母（A~Z、a~z）开头，由字母、数字（0~9）、下划线（_）、中划线（-）组成，不能以下划线或中划线结尾，且长度为[1-128]个字符。
展开高级配置，用户可以根据界面展示的左数据特征、左数据类型、右数据特征、右数据类型，手动配置需要匹配的特征列。
单击“确定”，执行数据联合。

数据联合完成后，系统在目标数据集下生成一份新数据，名称即为目标数据实例名称。