更新时间:2022-02-22 GMT+08:00

Loader作业源连接配置说明

基本介绍

Loader作业需要从不同数据源获取数据时,应该选择对应类型的连接,每种连接在该场景中需要配置连接的属性。

本章节适用于MRS 3.x之前版本。

obs-connector

表1 obs-connector数据源连接属性

参数

说明

桶名

保存源数据的OBS文件系统。

源目录或文件

源数据实际存储的形态,可能是文件系统包含一个目录中的全部数据文件,或者是文件系统包含的单个数据文件。

文件格式

Loader支持OBS中存储数据的文件格式,默认支持以下两种:

  • CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。
  • BINARY_FILE:表示文本格式以外的二进制文件。

换行符

源数据的每行结束标识字符。

字段分割符

源数据的每个字段分割标识字符。

编码类型

源数据的文本编码类型。只对文本类型文件有效。

文件分割方式

支持以下两种:
  • File:按总文件个数分配map任务处理的文件数量,计算规则为“文件总个数/抽取并发数”
  • Size:按文件总大小分配map任务处理的文件大小,计算规则为“文件总大小/抽取并发数”

generic-jdbc-connector

表2 generic-jdbc-connector数据源连接属性

参数

说明

模式或表空间

表示源数据对应的数据库名称,支持通过界面查询并选择。

表名

存储源数据的数据表,支持通过界面查询并选择。

抽取分区字段

分区字段,如果需读取多个字段,使用该字段分割结果并获取数据。

Where子句

表示读取数据库时使用的查询语句。

ftp-connector或sftp-connector

表3 ftp-connector或sftp-connector数据源连接属性

参数

说明

源目录或文件

源数据实际存储的形态,可能是文件服务器包含一个目录中的全部数据文件,或者是单个数据文件。

文件格式

Loader支持文件服务器中存储数据的文件格式,默认支持以下两种:

  • CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。
  • BINARY_FILE:表示文本格式以外的二进制文件。

换行符

源数据的每行结束标识字符。

说明:

ftp或sftp作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“换行符”配置无效

字段分割符

源数据的每个字段分割标识字符。

说明:

ftp或sftp作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效

编码类型

源数据的文本编码类型。只对文本类型文件有效。

文件分割方式

支持以下两种:
  • File:按总文件个数分配map任务处理的文件数量,计算规则为“文件总个数/抽取并发数”
  • Size:按文件总大小分配map任务处理的文件大小,计算规则为“文件总大小/抽取并发数”

hbase-connector

表4 hbase-connector数据源连接属性

参数

说明

表名

源数据实际存储的HBase表。

hdfs-connector

表5 hdfs-connector数据源连接属性

参数

说明

源目录或文件

源数据实际存储的形态,可能是HDFS包含一个目录中的全部数据文件,或者是单个数据文件。

文件格式

Loader支持HDFS中存储数据的文件格式,默认支持以下两种:

  • CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。
  • BINARY_FILE:表示文本格式以外的二进制文件。

换行符

源数据的每行结束标识字符。

说明:

hdfs作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“换行符”配置无效。

字段分割符

源数据的每个字段分割标识字符。

说明:

hdfs作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效。

文件分割方式

支持以下两种:
  • File:按总文件个数分配map任务处理的文件数量,计算规则为“文件总个数/抽取并发数”
  • Size:按文件总大小分配map任务处理的文件大小,计算规则为“文件总大小/抽取并发数”

hive-connector

表6 hive-connector数据源连接属性

参数

说明

数据库名称

数据源的Hive数据库名称,支持通过界面查询并选择。

表名

数据源的Hive表名称,支持通过界面查询并选择。