迁移Hive数据至DLI

本文为您介绍如何通过CDM数据同步功能，迁移MRS Hive数据至DLI。其他MRS Hadoop组件数据，均可以通过CDM与DLI进行双向同步。

前提条件

已创建DLI的SQL队列。

创建DLI队列时队列类型需要选择为“SQL队列”。
已创建包含Hive组件的MRS安全集群。
- 本示例创建的MRS集群和各组件版本如下：
  - MRS集群版本：MRS 3.1.0
  - Hive版本：3.1.0
  - Hadoop版本：3.1.1
- 本示例创建MRS集群时开启了Kerberos认证。
已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。
- 如果目标数据源为云下的数据库，则需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
- 数据源为云上的MRS、DWS等服务时，网络互通需满足如下条件：
  i. CDM集群与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
  
  ii. CDM集群与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则。
  
  配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。
  
  iii. 此外，您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同，如果不同，需要修改工作空间的企业项目。
本示例CDM集群的虚拟私有云、子网以及安全组和MRS集群保持一致。

步骤一：数据准备

MRS集群上创建Hive表和插入表数据。
1. 参考访问MRS Manager登录MRS Manager。
2. 在MRS Manager上，选择“系统 > 权限 > 角色”，单击“ 添加角色 ”，在添加角色页面分别配置参数。
  - 角色名称：输入自定义的“角色名称”，例如当前输入为：hivetestrole。
  - 配置资源权限：选择“当前MRS集群的名称 > hive”，勾选“Hive管理员权限”。
    图1 Manager创建Hive的角色
    
    更多MRS创建角色的操作说明可以参考：创建Hive管理员角色。
3. 在MRS Manager上，选择“系统 > 权限 > 用户”，单击“添加用户”，在添加用户页面分别配置如下参数。
  1. 用户名：自定义的用户名。当前示例输入为：hivetestusr。
  2. 用户类型：当前选择为“人机”。
  3. 密码和确认密码：输入当前用户名对应的密码。
  4. 用户组和主组：选择supergroup
  5. 角色：同时选择2中创建的角色和Manager_viewer角色。
    图2 MRS Manager上创建Hive用户
4. 参考安装MRS客户端下载并安装Hive客户端。例如，当前Hive客户端安装在MRS主机节点的“/opt/hiveclient”目录上。
5. 以root用户进入客户端安装目录下。
  例如：cd /opt/hiveclient
6. 执行以下命令配置环境变量。
  source bigdata_env
7. 因为当前集群启用了Kerberos认证，则需要执行以下命令进行安全认证。认证用户为3中创建的用户。
  kinit 3中创建的用户名
  
  例如，kinit hivetestusr
8. 执行以下命令连接Hive。
  beeline
9. 创建表和插入表数据。
  创建表：
```
create table user_info(id string,name string,gender string,age int,addr string);
```
  插入表数据：
```
insert into table user_info(id,name,gender,age,addr) values("12005000201","A","男",19,"A城市");
insert into table user_info(id,name,gender,age,addr) values("12005000202","B","男",20,"B城市");
insert into table user_info(id,name,gender,age,addr) values("12005000202","B","男",20,"B城市");
```
  上述示例是通过创建表和插入表数据构造迁移示例数据。如果是迁移已有的Hive数据库和表数据，则可以通过以下命令获取Hive的数据库和表信息。
  - 在Hive客户端执行如下命令获取数据库信息
     show databases
  - 切换到需要迁移的Hive数据库
     use Hive数据库名
  - 显示当前数据库下所有的表信息
     show tables
  - 查询Hive表的建表语句
     show create table Hive表名
    
    查询出来的建表语句需要做一些处理，建表语句要符合DLI的建表语法，再到具体的DLI上执行。
在DLI上创建数据库和表。
1. 登录DLI管理控制台，选择“SQL编辑器”，在SQL编辑器中“执行引擎”选择“spark”，“队列”选择已创建的SQL队列。
  在编辑器中输入以下语句创建数据库，例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。
```
create database testdb;
```
2. 在数据库下创建表。
  
  如果是通过在MRS Hive中的“show create table hive表名”获取的建表语句，则需要修改该建表语句以符合DLI的建表语法。具体DLI的建表语法可以参考创建DLI表。
```
create table user_info(id string,name string,gender string,age int,addr string);
```

步骤二：数据迁移

配置CDM数据源连接。

配置源端MRS Hive的数据源连接。

登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。
在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“MRS Hive”，单击“下一步”。
图3 创建MRS Hive数据源连接

配置源端MRS Hive的数据源连接，具体参数配置如下。

表1 MRS Hive数据源配置
参数	值
名称	自定义MRS Hive数据源名称。例如当前配置为：source_hive
Manager IP	单击输入框旁边的“选择”按钮，选择当前MRS Hive集群即可自动关联出来Manager IP。
认证类型	如果当前MRS集群为普通集群则选择为SIMPLE，如果是MRS集群启用了Kerberos安全认证则选择为KERBEROS。本示例选择为：KERBEROS。
Hive版本	根据当前创建MRS集群时候的Hive版本确定。当前Hive版本为3.1.0，则选择为：HIVE_3_X。
用户名	在3中创建的MRS Hive用户名。
密码	对应的MRS Hive用户名的密码。

其他参数保持默认即可。

图4 CDM配置MRS Hive数据源
点击放大

单击“保存”完成MRS Hive数据源配置。

配置目的端DLI的数据源连接。
1. 登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。
2. 在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“数据湖探索（DLI）”，单击“下一步”。
  图5 创建DLI数据源连接
3. 配置目的端DLI数据源连接连接参数。
  图6 配置DLI数据源连接参数
  
  配置完成后，单击“保存”完成DLI数据源配置。

创建CDM迁移作业。

登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。
在“作业管理”界面，选择“表/文件迁移”，单击“新建作业”。

在新建作业界面，配置当前作业配置信息，具体参数参考如下：

图7 新建CDM作业作业配置
点击放大

作业名称：自定义数据迁移的作业名称。例如，当前定义为：hive_to_dli。

源端作业配置，具体参考如下：

表2 源端作业配置
参数名	参数值
源连接名称	选择1.a中已创建的数据源名称。
数据库名称	选择MRS Hive待迁移的数据库名称。例如当前待迁移的表数据数据库为“default”。
表名	待建议Hive数据表名。当前示例为在DLI上创建数据库和表中的“user_info”表。
读取方式	当前示例选择为：HDFS。具体参数含义如下：包括HDFS和JDBC两种读取方式。默认为HDFS方式，如果没有使用WHERE条件做数据过滤及在字段映射页面添加新字段的需求，选择HDFS方式即可。 HDFS文件方式读取数据时，性能较好，但不支持使用WHERE条件做数据过滤及在字段映射页面添加新字段。 JDBC方式读取数据时，支持使用WHERE条件做数据过滤及在字段映射页面添加新字段。

更多参数的详细配置可以参考：CDM配置Hive源端参数。

目的端作业配置，具体参考如下：

表3 目的端作业配置
参数名	参数值
目的连接名称	选择1.b已创建的DLI数据源连接。
资源队列	选择已创建的DLI SQL类型的队列。
数据库名称	选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名，即为“testdb”。
表名	选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名，即为“user_info”。
导入前清空数据	选择导入前是否清空目的表的数据。当前示例选择为“否”。如果设置为是，任务启动前会清除目标表中数据。

更多参数的详细配置可以参考：CDM配置DLI目的端参数。

单击“下一步”，进入到字段映射界面，CDM会自动匹配源和目的字段。
- 如果字段映射顺序不匹配，可通过拖拽字段调整。
- 如果选择在目的端自动创建类型，这里还需要配置每个类型的字段类型、字段名称。
- CDM支持迁移过程中转换字段内容，详细请参见字段转换。
图8 字段映射
单击“下一步”配置任务参数，一般情况下全部保持默认即可。
该步骤用户可以配置如下可选功能：
- 作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。
- 作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
- 是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。
- 抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。
- 是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。
单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。
图9 迁移作业进度和结果查询