更新时间:2021-09-18 GMT+08:00
分享

数据集操作

对于数据样本量不足,或者在一定场景下,比如将采集的不同系统或网元的数据合并成一份数据的时候,用户可以在“数据集”界面中执行数据连接和数据联合操作:

  • 数据连接:将特征列维度不完全相同的两份数据,合并成一份数据,用于扩展特征维度。
  • 数据联合:将两份数据合并成一份数据,用于增加样本量。

数据连接

数据连接可以将特征维度不完全相同,且必须至少一个特征是相同的数据集,通过数据连接,合并成一个具备更多特征列的数据集。

数据连接是基于主键字段列,即两个数据集的相同特征列,采用leftouter、rightouter、inner、outer连接方式,连接两个数据集实例。

数据连接的两份数据的键值必须相同,否则系统无法进行数据连接。

将两份数据分别理解为左表和右表。连接方式说明如下:

  • leftouter:以左表为主,返回所有左表数据以及匹配的右表数据。右表重复字段名加后缀__duplicate。
  • rightouter:以右表为主,返回所有右表数据以及匹配的左表数据。左表重复字段名加后缀__duplicate。
  • inner:以左表为主,返回左表和右表同时匹配的数据。右表重复字段名加后缀__duplicate。
  • outer:以左表为主,返回左表和右表所有的数据。右表重复字段名加后缀__duplicate。

以如下表1表2为例,键值为ID列,则按照leftouter、rightouter、inner、outer连接后的返回值分别如表3表4表5表6

表1 左表数据

ID

Name

Height

1

A

1

3

B

2

5

C

2

7

D

2

9

E

2

表2 右表数据

ID

Name

Weight

2

A

2

4

B

3

5

C

4

7

D

5

表3 Leftouter数据连接

ID

Name

Height

Name__duplicate

Weight

7

D

2

D

5

9

E

2

null

null

5

C

2

C

4

1

A

1

null

null

3

B

2

null

null

表4 Rightouter数据连接

ID

Name__duplicate

Height

Name

Weight

7

D

2

D

5

5

C

2

C

4

2

null

null

A

2

4

null

null

B

3

表5 Inner数据连接

ID

Name

Height

Name__duplicate

Weight

7

D

2

D

5

5

C

2

C

4

表6 Outer数据连接

ID

Name

Height

Name__duplicate

Weight

7

D

2

D

5

9

E

2

null

null

5

C

2

C

4

1

A

1

null

null

3

B

2

null

null

2

null

null

A

2

4

null

null

B

3

数据连接操作步骤如下。

  1. 单击数据目录区域框中的,弹出“数据连接”对话框,如图1所示。

    图1 数据连接界面

  2. 配置“数据连接”对话框参数:

    • 主数据集:主数据集、主数据实例、键值。
    • 扩展数据集:扩展数据集、扩展数据实例、键值。
    • 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。
    • 连接方式:leftouter、rightouter、inner、outer。

  3. 单击“确定”,执行数据连接。

    数据连接完成后,系统在目标数据集下生成一个新数据集实例,名称即为目标数据名称。

数据联合

数据连接操作后,新生成的数据,其特征列会增多;数据联合操作后,数据集实例的样本量会增多。

数据联合,是合并两份数据的样本,合并后数据的样本量是两份数据样本量的总和。

左表和右表特征列数不一致时,按照如下情况处理:

  • 左表特征列数多,右表不足的特征列补充空值。
  • 右表特征列数多,以左表为准,删除右表多余的特征列。
  1. 单击“数据目录”区域框中的,弹出“数据联合”对话框,如图2所示。

    图2 数据联合界面

  2. 配置“数据联合”对话框参数:

    • 主数据集:主数据集、主数据实例。
    • 扩展数据集:扩展数据集、扩展数据实例。
    • 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。

  3. 展开高级配置,用户可以根据界面展示的左数据特征、左数据类型、右数据特征、右数据类型,手动配置需要匹配的特征列。
  4. 单击“确定”,执行数据联合。

    数据联合完成后,系统在目标数据集下生成一份新数据,名称即为目标数据实例名称。

相关文档