更新时间:2024-09-04 GMT+08:00

启用MRS集群间拷贝功能

当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用,复制数据的集群双方都需要配置。

管理员可以根据以下指导,在Manager修改参数以启用集群间拷贝功能,启用之后即可创建将数据备份至远端HDFS(RemoteHDFS)的备份任务。

对系统的影响

启用集群间复制功能需要重启Yarn,服务重启期间无法访问。

前提条件

  • 复制数据的集群的HDFS的参数“hadoop.rpc.protection”需使用相同的数据传输方式。默认设置为“privacy”表示加密,“authentication”表示不加密。
  • 对于开启了Kerberos认证的集群(安全模式),集群之间需要配置系统互信。
  • 每个集群的两个安全组,需分别添加对端集群的两个安全组入方向规则,允许安全组中所有弹性云服务器全部协议全部端口的访问请求。

启用MRS集群间拷贝功能

  1. 登录其中一个集群的Manager界面。

    • MRS 2.x及之前版本,选择“服务管理 > Yarn > 服务配置”,“参数类别”设置为“全部配置”。
    • MRS 3.x及之后版本,选择集群 > 服务 > Yarn > 配置,单击“全部配置”。

  2. 左边菜单栏中选择“Yarn > 集群间拷贝”,配置以下参数:

    • MRS 2.x及之前版本,在“dfs.namenode.rpc-address.haclusterX.remotenn1”填写对端集群其中一个NameNode实例的业务IP和RPC端口,在“dfs.namenode.rpc-address.haclusterX.remotenn2”填写对端集群另外一个NameNode实例的业务IP和RPC端口,修改后参数值例如为“10.1.1.1:25000”和“10.1.1.2:25000”。

      “dfs.namenode.rpc-address.haclusterX.remotenn1”和“dfs.namenode.rpc-address.haclusterX.remotenn2”不区分主备NameNode。NameNode RPC端口默认为“25000”,不支持通过Manager修改。

    • MRS 3.x及之后版本,修改参数“dfs.namenode.rpc-address”,在“haclusterX.remotenn1”右侧填写对端集群其中一个NameNode实例的业务IP和RPC端口,在“haclusterX.remotenn2”右侧填写对端集群另外一个NameNode实例的业务IP和RPC端口。修改后参数值例如为“10.1.1.1:8020”和“10.1.1.2:8020”。

      “haclusterX.remotenn1”和“haclusterX.remotenn2”不区分主备NameNode。NameNode RPC端口默认为“8020”,不支持通过Manager修改。

      如果本集群数据要备份至多个集群的HDFS中,可以继续配置对应的NameNode RPC地址至haclusterX1、haclusterX2、haclusterX3、haclusterX4。

  3. 保存配置并重启Yarn服务:

    • MRS 2.x及之前版本,单击“保存配置”,选择“重新启动受影响的服务或实例。”并单击“确定”,重启Yarn服务。

      界面提示“操作成功。”,单击“完成”,Yarn服务重启成功。

    • MRS 3.x及之后版本,单击“保存”,并在确认对话框中单击“确定”。单击“概览”,选择“更多 > 重启服务”,输入当前用户密码,重启Yarn服务。

  4. 登录另外一个集群的Manager界面,重复执行13