典型场景示例：迁移RDS数据至DLI

本文为您介绍如何通过CDM数据同步功能，迁移关系型数据库RDS数据至DLI。其他关系型数据库数据都可以通过CDM与DLI进行双向同步。

前提条件

已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。

创建DLI队列时队列类型需要选择为“SQL队列”。
已创建云数据库RDS的MySQL的数据库实例。具体创建RDS集群的操作可以参考创建RDS MySQL数据库实例。
- 本示例RDS数据库引擎：MySQL
- 本示例RDS MySQL数据库版本：5.7。
已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。
- 如果目标数据源为云下的数据库，则需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
- 数据源为云上服务RDS、MRS时，网络互通需满足如下条件：
  i. CDM集群与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
  
  ii. CDM集群与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则。
  
  配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。
  
  iii. 此外，您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同，如果不同，需要修改工作空间的企业项目。
本示例CDM集群的虚拟私有云、子网以及安全组和RDS MySQL实例保持一致。

步骤一：数据准备

RDS的MySQL的数据库实例上创建数据库和表。
1. 登录RDS管理控制台，在“实例管理”界面，选择已创建的MySQL实例，选择操作列的“更多 > 登录”，进入数据管理服务实例登录界面。
2. 输入实例登录的用户名和密码。单击“登录”，即可进入MySQL数据库并进行管理。
3. 在数据库实例界面，单击“新建数据库”，数据库名定义为：testrdsdb，字符集保持默认即可。
4. 在已创建的数据库的操作列，单击“SQL查询”，输入以下创建表语句，创建RDS MySQL表。
```
CREATE TABLE tabletest (
	`id` VARCHAR(32) NOT NULL,
	`name` VARCHAR(32) NOT NULL,
	PRIMARY KEY (`id`)
)	ENGINE = InnoDB
	DEFAULT CHARACTER SET = utf8mb4;
```
5. 插入表数据。
```
insert into tabletest VALUES ('123','abc');
insert into tabletest VALUES ('456','efg');
insert into tabletest VALUES ('789','hij');
```
6. 查询测试的表数据。
```
select * from tabletest;
```
  图1 查询RDS表数据
在DLI上创建数据库和表。
1. 登录DLI管理控制台，选择“SQL编辑器”，在SQL编辑器中“执行引擎”选择“spark”，“队列”选择已创建的SQL队列。
  在编辑器中输入以下语句创建数据库，例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。
```
create database testdb;
```
2. 在“SQL编辑器”中，数据库选择“testdb”，执行以下建表语句创建数据库下的表。详细的DLI建表语法可以参考创建DLI表。
```
create table tabletest(id string,name string);
```

步骤二：数据迁移

配置CDM数据源连接。

创建源端RDS数据库的连接。

登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。
首次创建RDS MySQL数据库连接时需要上传MySQL的驱动，单击“连接管理 > 驱动管理”，进入驱动管理界面。
参考CDM管理驱动下载MySQL的驱动包到本地，将下载后驱动包本地解压，获取驱动的jar包文件。
例如，当前下载MySQL驱动包压缩文件为“mysql-connector-java-5.1.48.zip”，解压后获取驱动文件“mysql-connector-java-5.1.48.jar”。
返回到驱动管理界面，在驱动名称为MYSQL的操作列，单击“上传”，在“导入驱动文件”界面单击“添加文件”，将1.a.iii获取的驱动文件上传。
在驱动管理界面单击“返回”按钮回到连接管理界面，单击“新建连接”，连接器类型选择“云数据库 MySQL”，单击“下一步”。

配置连接RDS的数据源连接参数，具体参数配置如下。

表1 RDS MySQL数据源配置
参数	值
名称	自定义RDS数据源名称。例如当前配置为：source_rds。
数据库服务	单击输入框旁边的“选择”按钮，选择当前已创建的RDS实例名即可自动关联出来数据库服务器地址。
端口	RDS实例的端口。选择数据库服务器后自动自动关联。
数据库名称	当前需要迁移的RDS MySQL数据库名称。当前示例为3中创建的数据库“testrdsdb”。
用户名	待连接数据库的用户。该数据库用户需要有数据表的读写权限，以及对元数据的读取权限。本示例使用创建RDS MySQL数据库实例的默认用户“root”。
密码	对应的RDS MySQL数据库用户的密码。

其他更多参数保持默认即可，如果需要了解详细参数说明，可以参考配置关系数据库连接。单击“保存”完成RDS MySQL数据源连接配置。

图2 CDM配置RDS MySQL数据源
点击放大

创建目的端DLI数据源的连接。
1. 登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。
2. 在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“数据湖探索（DLI）”，单击“下一步”。
  图3 创建DLI数据源连接
1. 配置目的端DLI数据源连接。具体参数配置可以参考在CDM上配置DLI连接。
  图4 创建DLI数据源连接
  
  配置完成后，单击“保存”完成DLI数据源配置。

创建CDM迁移作业。

登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。
在“作业管理”界面，选择“表/文件迁移”，单击“新建作业”。

在新建作业界面，配置当前作业配置信息，具体参数参考如下：

图5 CDM数据迁移作业配置
点击放大

作业名称：自定义数据迁移的作业名称。例如，当前定义为：rds_to_dli。

源端作业配置，具体参考如下：

表2 源端作业配置
参数名	参数值
源连接名称	选择1.a中已创建的数据源名称。
使用SQL语句	“使用SQL语句”选择“是”时，您可以在这里输入自定义的SQL语句，CDM将根据该语句导出数据。本示例当前选择为“否”。
模式或表空间	选择RDS MySQL待迁移的数据库名称。例如当前待迁移的表数据数据库为“testrdsdb”。
表名	待迁移的RDS MySQL数据表名。当前为4中的“tabletest”表。

更多详细参数配置请参考配置关系数据库源端参数。

目的端参数配置，具体参考如下：

表3 目的端作业配置
参数名	参数值
目的连接名称	选择已创建的DLI数据源连接。
资源队列	选择已创建的DLI SQL类型的队列。
数据库名称	选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表创建的数据库名，即为“testdb”。
表名	选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表创建的表名，即为“tabletest”。
导入前清空数据	选择导入前是否清空目的表的数据。当前示例选择为“否”。如果设置为是，任务启动前会清除目标表中数据。

详细的参数配置可以参考：CDM配置DLI目的端参数。

单击“下一步”，进入到字段映射界面，CDM会自动匹配源和目的字段。
- 如果字段映射顺序不匹配，可通过拖拽字段调整。
- 如果选择在目的端自动创建类型，这里还需要配置每个类型的字段类型、字段名称。
- CDM支持迁移过程中转换字段内容，详细请参见字段转换。
  图6 字段映射
单击“下一步”配置任务参数，一般情况下全部保持默认即可。
该步骤用户可以配置如下可选功能：
- 作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。
- 作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
- 是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。
- 抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。
- 是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。
单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。
图7 迁移作业进度和结果查询

步骤三：结果查询

CDM迁移作业运行完成后，再登录到DLI管理控制台，选择“SQL编辑器”，在SQL编辑器中“执行引擎”选择“spark”，“队列”选择已创建的SQL队列，数据库选择在DLI上创建数据库和表已创建的数据库，执行DLI表查询语句，查询RDS MySQL表数据是否已成功迁移到DLI的“tabletest”表中。