文档首页 > > 用户指南> 作业管理> 场景迁移

场景迁移

分享
更新时间:2020/10/23 GMT+08:00

场景化迁移通过迁移快照数据然后再恢复表数据的方法,能大大提升迁移效率。

前提条件

  • CDM集群与待迁移数据源可以正常通信。
  • 已获取待连接数据源的地址、用户名和密码,且该用户拥有数据导入、导出的操作权限。

配置Hadoop连接

目前CDM支持连接的Hadoop数据源有以下几种:

MRS

连接MRS上的Hadoop数据源时,相关参数如表1所示。

表1 MRS上的Hadoop连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

mrs_scen_link

Manager IP

MRS Manager的IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。

127.0.0.1

认证类型

访问MRS的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

SIMPLE

HBase版本

根据服务端HBase版本设置。

HBASE_2_X

Hive版本

根据服务端Hive版本设置。

HIVE_3_X

用户名

选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。

从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。

cdm

密码

访问MRS Manager的用户密码。

-

运行模式

选择HDFS连接的运行模式:
  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
  • Agent:连接实例运行在Agent上。

选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。

STANDALONE

FusionInsight Hadoop

连接FusionInsight HD上的Hadoop数据源时,相关参数如表2所示。

表2 FusionInsight Hadoop连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

FI_hdfs_link

Manager IP

FusionInsight Manager平台的地址。

127.0.0.1

Manager端口

FusionInsight Manager平台的端口。

28443

CAS Server端口

与FusionInsight对接的CAS Server的端口。

20009

用户名

登录FusionInsight Manager平台的用户名。

从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。

cdm

密码

FusionInsight Manager平台的密码。

-

认证类型

访问FusionInsight HD的认证类型。
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

KERBEROS

HBase版本

根据服务端HBase版本设置。

HBASE_2_X

Hive版本

根据服务端Hive版本设置。

HIVE_3_X

运行模式

选择HDFS连接的运行模式:
  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
  • Agent:连接实例运行在Agent上。

STANDALONE

Apache Hadoop

连接Apache Hadoop数据源时,相关参数如表3所示。

表3 Apache Hadoop连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

hadoop_hdfs_link

URI

表示NameNode URI地址。

hdfs://nn1.example.com/

Zookeeper地址

zookeeper地址,hbase场景化迁移需要配置。

hbase-node-1:2181

Hive元数据地址

设置Hive元数据地址,参考 hive.metastore.uris配置项。

thrift://host-192-168-1-212:9083

认证类型

访问Hadoop的认证类型。
  • SIMPLE:非安全模式Hadoop选择Simple鉴权。
  • KERBEROS:安全模式Hadoop选择Kerberos鉴权,通过获取客户端的principal和keytab文件在应用程序中进行认证。

KERBEROS

Principal

选择Kerberos鉴权时,用于认证的帐号Principal,您可以联系Hadoop管理员获取此帐号。

USER@YOUR-REALM.COM

Keytab文件

选择Kerberos鉴权时,用于认证的Keytab文件,您可以联系Hadoop管理员获取此文件。

/opt/user.keytab

IP与主机名映射

如果HDFS配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。

10.1.6.9 hostname01

10.2.7.9 hostname02

HBase版本

根据服务端HBase版本设置。

HBASE_2_X

Hive版本

根据服务端Hive版本设置。

HIVE_3_X

运行模式

选择HDFS连接的运行模式:
  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
  • Agent:连接实例运行在Agent上。

STANDALONE

场景迁移操作步骤

  1. 登录CDM管理控制台
  2. 单击左侧导航上的“集群管理”,选择集群后的“作业管理”
  3. 选择CDM集群后的作业管理 > 连接管理 > 新建连接,选择连接器类型为Hadoop发行版。
  4. 选择连接器类型后,单击“下一步”参见配置Hadoop连接配置连接参数。
  5. 连接的参数配置完成后单击“测试”,可测试连接是否可用。或者直接单击“保存”,保存时也会先检查连接是否可用。

    受网络和数据源的影响,部分连接测试的时间可能需要30~60秒。

  6. 单击场景迁移 > 新建作业,进入作业参数配置界面。选择迁移场景(Hadoop发行版快速迁移,Hive快速迁移和HBase快速迁移)并配置作业名称。

    图1 配置场景迁移作业

  7. 配置源端作业和目的端作业参数,选择连接名称和待迁移的数据库名称。

    图2 配置作业参数

  8. 作业参数配置完成后,单击“下一步”会进入表的选择界面,您可以根据自己的需求选择迁移哪些表到目的端。
  9. 单击“下一步”配置任务参数。

    各参数说明表4所示。
    表4 任务配置参数

    参数

    说明

    取值样例

    是否写入脏数据

    选择是否记录脏数据,默认不记录脏数据。

    脏数据写入连接

    “是否写入脏数据”“是”才显示该参数。

    脏数据要写入的连接,目前只支持写入到OBS连接。

    obs_link

    OBS桶

    “脏数据写入连接”为OBS类型的连接时,才显示该参数。

    写入脏数据的OBS桶的名称。

    dirtydata

    脏数据目录

    “是否写入脏数据”选择为“是”时,该参数才显示。

    OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。

    用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。

    /user/dirtydir

    单个分片的最大错误记录数

    “是否写入脏数据”“是”才显示该参数。

    单个map的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。

    0

  10. 单击“保存”,或者“保存并运行”

    作业任务启动后,每个待迁移的表都会生成一个子任务,单击场景迁移的作业名称,可查看子任务列表。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问