使用Loader从HDFS/OBS导出数据到关系型数据库

操作场景

该任务指导用户使用Loader将数据从HDFS/OBS导出到关系型数据库。

前提条件

创建或获取该任务中创建Loader作业的业务用户和密码。
确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
获取关系型数据库使用的用户和密码。
检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。
如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。
设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。
操作前需要进行如下配置：
1. 获取关系型数据库对应的驱动jar包保存在Loader服务主备节点的lib路径：“${BIGDATA_HOME}/FusionInsight_Porter_xxx/install/FusionInsight-Sqoop-1.99.3/FusionInsight-Sqoop-1.99.3/server/webapps/loader/WEB-INF/ext-lib”。
2. 使用root用户在主备节点分别执行以下命令修改权限：
  cd ${BIGDATA_HOME}/FusionInsight_Porter_xxx/install/FusionInsight-Sqoop-1.99.3/FusionInsight-Sqoop-1.99.3/server/webapps/loader/WEB-INF/ext-lib
  
  chown omm:wheel jar包文件名
  
  chmod 600 jar包文件名
3. 登录FusionInsight Manager系统，选择“集群 > 服务 > Loader > 更多 > 重启服务”，输入管理员密码重启Loader服务。

操作步骤

设置作业基本信息

登录“Loader WebUI”界面。
1. 登录FusionInsight Manager系统，具体请参见访问集群Manager。
2. 选择“集群 > 服务 > Loader”。
3. 单击“LoaderServer(节点名称，主)”打开“Loader WebUI”界面。
  图1 Loader WebUI界面
单击“新建作业”，进入“基本信息”界面，创建作业基本信息。

图2 基本信息界面
1. 在“名称”中输入作业的名称。
2. 在“类型”中选择“导出”。
3. 在“组”中设置作业所属组，默认没有已创建的组，单击“添加”创建一个新的组，输入组的名称，单击“确定”保存。
4. 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。
5. 在“优先级”中选择执行该作业的YARN队列优先级。默认值为“NORMAL”。可选值为“VERY_LOW”、“LOW”、“NORMAL”、“HIGH”和“VERY_HIGH”。

在“连接”区域，单击“添加”新建一个连接，在“连接器”中选择“generic-jdbc-connector”或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），输入配置连接参数，单击“测试”验证连接是否可用，待提示“测试成功”后单击“确定”。

与关系数据库连接时，可以选择通用数据库连接器（generic-jdbc-connector）或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），专用数据库连接器特别针对具体数据库类型进行优化，相对通用数据库连接器来说，导出、导入速度更快。
使用mysql-fastpath-connector时，要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令，并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容，如果没有这两个命令或版本不兼容，请参考https://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html，安装MySQL client applications and tools。

表1 “generic-jdbc-connector”连接参数
参数名	说明	示例
名称	关系型数据库连接的名称。	dbName
JDBC驱动程序类	JDBC驱动类名。	oracle.jdbc.driver.OracleDriver
JDBC连接字符串	JDBC连接字符串。	jdbc:oracle:thin:@//10.16.0.1:1521/oradb
用户名	连接数据库使用的用户名。	omm
密码	连接数据库使用的密码。	xxxx
JDBC连接属性	JDBC连接属性，单击“添加”手动添加。名称：连接属性名值：连接属性值	名称：socketTimeout 值：20

设置数据源信息

单击“下一步”，进入“输入设置”界面，在“源文件类型”中选择“HDFS”，设置数据源信息。

表2 数据来源配置参数
参数名	解释说明	示例
输入目录	从HDFS/OBS导出时的输入路径。说明：路径参数可以使用宏定义，具体请参考Loader算子配置项中使用宏定义。	/user/test
路径过滤器	配置通配符对源文件的输入路径包含的目录进行过滤。“输入目录”不参与过滤。配置多个过滤条件时使用“,”隔开，配置为空时表示不过滤目录。不支持正则表达式过滤。 “?”匹配单个字符。 “*”配置多个字符。在匹配条件前加“^”表示取反，即文件过滤。	*
文件过滤器	配置通配符对源文件的输入文件名进行过滤。配置多个过滤条件时使用“,”隔开。不能配置为空。不支持正则表达式过滤。 “?”匹配单个字符。 “*”配置多个字符。在匹配条件前加“^”表示取反，即文件过滤。	*
文件类型	文件导入类型： “TEXT_FILE”：导入文本文件并保存为文本文件。 “SEQUENCE_FILE”：导入文本文件并保存在sequence file文件格式。 “BINARY_FILE”：以二进制流的方式导入文件，可以导入任何格式的文件，不对文件做任何处理。说明：文件类型选择“TEXT_FILE”或“SEQUENCE_FILE”导入时，Loader会自动根据文件的后缀选择对应的解压方法，对文件进行解压。	TEXT_FILE
文件分割方式	选择按文件或大小分割源文件，作为数据导出的MapReduce任务中各个map的输入文件。选择“FILE”，表示按文件分割源文件，即每个map处理一个或多个完整的源文件，同一个源文件不可分配至不同map，完成数据导入后保持源文件的目录结构。选择“SIZE”，表示按大小分割源文件，即每个map处理一定大小的输入文件，同一个源文件可分割至多个map，数据保存至输出目录时保存的文件数与map数量相同，文件名格式为“import_part_xxxx”，“xxxx”为系统生成的随机数，具有唯一性。	FILE
Map数	配置数据操作的MapReduce任务中同时启动的Map数量。不可与“Map数据块大小”同时配置。参数值必须小于或等于3000。	20
Map数据块大小	配置数据操作的MapReduce任务中启动Map所处理的数据大小，单位为MB。参数值必须大于或等于100，建议配置值为1000。不可与“Map数”同时配置。当使用关系型数据库连接器时，不支持“Map数据块大小”，请配置“Map数”。	-

设置数据转换

单击“下一步”，进入“转换”界面，设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考Loader算子帮助及表3。

表3 算子输入、输出参数设置

输入类型

输出类型

CSV文件输入

表输出

HTML输入

表输出

固定宽度文件输入

表输出

图3 算子操作方法示意

设置数据保存信息并运行作业

表3 算子输入、输出参数设置
输入类型	输出类型
CSV文件输入	表输出
HTML输入	表输出
固定宽度文件输入	表输出

单击“下一步”，进入“输出设置”界面，设置数据保存方式。

表4 输出设置参数
参数名	说明	示例
架构名称	数据库模式名。	dbo
表名	数据库表名，用于最终保存传输的数据。说明：表名可以使用宏定义，具体请参考Loader算子配置项中使用宏定义。	test
临时表	数据库临时表表名，用于临时保存传输过程中的数据，字段需要和“表名”配置的表一致。说明：使用临时表是为了使得导出数据到数据库时，不会在目的表中产生脏数据。只有在所有数据成功写入临时表后，才会将数据从临时表迁移到目的表。使用临时表会增加作业的执行时间。	tmp_test