文档首页 > > 用户指南> 创建作业>

新建场景迁移作业

新建场景迁移作业

分享
更新时间:2021/04/21 GMT+08:00

场景化迁移通过迁移快照数据然后再恢复表数据的方法,能大大提升迁移效率。

前提条件

  • CDM集群与待迁移数据源可以正常通信。
  • 已获取待连接数据源的地址、用户名和密码,且该用户拥有数据导入、导出的操作权限。

配置Hadoop连接

场景迁移下CDM支持连接的Hadoop数据源包括MRS、FusionInsight Hadoop和Apache Hadoop。新建连接时的参数说明详见配置Hadoop发行版连接

场景迁移操作步骤

  1. 进入CDM主界面,单击左侧导航上的“集群管理”,选择集群后的“作业管理”
  2. 选择CDM集群后的作业管理 > 连接管理 > 新建连接,选择连接器类型为Hadoop发行版。
  3. 选择连接器类型后,单击“下一步”参见配置Hadoop连接配置连接参数。
  4. 连接的参数配置完成后单击“测试”,可测试连接是否可用。或者直接单击“保存”,保存时也会先检查连接是否可用。

    受网络和数据源的影响,部分连接测试的时间可能需要30~60秒。

  5. 单击场景迁移 > 新建作业,进入作业参数配置界面。选择迁移场景(Hadoop发行版快速迁移,Hive快速迁移和HBase快速迁移)并配置作业名称。

    图1 配置场景迁移作业

  6. 配置源端作业和目的端作业参数,选择连接名称和待迁移的数据库名称。

    图2 配置作业参数

  7. 作业参数配置完成后,单击“下一步”会进入表的选择界面,您可以根据自己的需求选择迁移哪些表到目的端。
  8. 单击“下一步”配置任务参数。

    各参数说明表1所示。
    表1 任务配置参数

    参数

    说明

    取值样例

    是否写入脏数据

    选择是否记录脏数据,默认不记录脏数据。

    脏数据写入连接

    “是否写入脏数据”“是”才显示该参数。

    脏数据要写入的连接,目前只支持写入到OBS连接。

    obs_link

    OBS桶

    “脏数据写入连接”为OBS类型的连接时,才显示该参数。

    写入脏数据的OBS桶的名称。

    dirtydata

    脏数据目录

    “是否写入脏数据”选择为“是”时,该参数才显示。

    OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。

    用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。

    /user/dirtydir

    单个分片的最大错误记录数

    “是否写入脏数据”“是”才显示该参数。

    单个map的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。

    0

  9. 单击“保存”,或者“保存并运行”

    作业任务启动后,每个待迁移的表都会生成一个子任务,单击场景迁移的作业名称,可查看子任务列表。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区论坛频道来与我们联系探讨

智能客服提问云社区提问