更新时间:2024-11-29 GMT+08:00
使用Hive读取关系型数据库数据
操作场景
Hive支持创建与其他关系型数据库关联的外表。该外表可以从关联到的关系型数据库中读取数据,并与Hive的其他表进行Join操作。
目前支持使用Hive读取数据的关系型数据库如下:
- DB2
- Oracle
前提条件
已安装Hive客户端。
操作步骤
- 以Hive客户端安装用户登录安装客户端的节点。
- 执行以下命令,切换到客户端安装目录。
cd 客户端安装目录
例如安装目录为“/opt/client”,则执行以下命令:
cd /opt/client
- 执行以下命令配置环境变量。
source bigdata_env
- 集群认证模式是否为安全模式。
- 是,执行以下命令进行用户认证:
- 否,执行5。
- 执行以下命令,将需要关联的关系型数据库驱动Jar包上传到HDFS目录下。
hdfs dfs -put Jar包所在目录 保存Jar包的HDFS目录
例如将“/opt”目录下ORACLE驱动Jar包上传到HDFS的“/tmp”目录下,则执行如下命令。
hdfs dfs -put /opt/ojdbc6.jar /tmp
- 按照如下示例,在Hive客户端创建关联关系型数据库的外表。
如果是安全模式,建表的用户需要“ADMIN”权限,ADD JAR的路径请以实际路径为准。
-- 关联oracle linux6版本示例 -- 如果是安全模式,设置admin权限 set role admin; -- 添加连接关系型数据库的驱动jar包,不同数据库有不同的驱动JAR ADD JAR hdfs:///tmp/ojdbc6.jar; CREATE EXTERNAL TABLE ora_test -- hive表的列需比数据库返回结果多一列用于分页查询 (id STRING,rownum string) STORED BY 'com.qubitproducts.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES ( -- 关系型数据库类型 "qubit.sql.database.type" = "ORACLE", -- 通过JDBC连接关系型数据库的url(不同数据库有不同的url格式) "qubit.sql.jdbc.url" = "jdbc:oracle:thin:@//10.163.0.1:1521/mydb", -- 关系型数据库驱动类名 "qubit.sql.jdbc.driver" = "oracle.jdbc.OracleDriver", -- 在关系型数据库查询的sql语句,结果将返回hive表 "qubit.sql.query" = "select name from aaa", -- hive表的列与关系型数据库表的列进行匹配(可忽略) "qubit.sql.column.mapping" = "id=name", -- 关系型数据库用户 "qubit.sql.dbcp.username" = "test", -- 关系型数据库密码,命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 "qubit.sql.dbcp.password" = "xxx");
父主题: 使用Hive