更新时间:2023-03-17 GMT+08:00

恢复元数据

操作场景

在用户意外修改删除、数据需要找回,对元数据组件进行重大操作(如升级、重大数据调整等)后系统数据出现异常或未达到预期结果,模块全部故障完全无法使用,或者迁移数据到新集群的场景中,需要对元数据进行恢复操作。

该任务指导用户通过MRS创建恢复元数据任务。只支持创建任务手动恢复数据。

  • 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。
  • 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的元数据。
  • 必须使用同一时间点的OMS和LdapServer备份数据进行恢复,否则可能造成业务和操作失败。
  • MRS集群默认使用DBService保存Hive的元数据。

对系统的影响

  • 数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。
  • 数据恢复后,依赖DBService的组件可能配置过期,需要重启配置过期的服务。

前提条件

  • 检查OMS和LdapServer备份文件是否是同一时间点备份的数据。
  • 检查OMS资源状态是否正常,检查LdapServer实例状态是否正常。如果不正常,不能执行恢复操作。
  • 检查集群主机和服务的状态是否正常。如果不正常,不能执行恢复操作。
  • 检查恢复数据时集群主机拓扑结构与备份数据时是否相同。如果不相同,不能执行恢复操作,必须重新备份。
  • 检查恢复数据时集群中已添加的服务与备份数据时是否相同。如果不相同,不能执行恢复操作,必须重新备份
  • 检查DBService主备实例状态是否正常。如果不正常,不能执行恢复操作。
  • 停止依赖MRS集群运行的上层业务应用。
  • 在MRS停止所有待恢复数据的NameNode角色实例,其他的HDFS角色实例必须保持正常运行,恢复数据后重启NameNode。NameNode角色实例重启前无法访问。
  • 检查NameNode备份文件是否保存在主管理节点“数据存放路径/LocalBackup/”。
  • 已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步)。

操作步骤

  1. 查看备份数据位置。

    1. 在集群详情页,单击“备份恢复 > 备份管理”。

      MRS 3.x版本请参考恢复数据

    2. 在任务列表指定任务的“操作”列,单击更多 > 查询历史,打开备份任务执行历史记录。 在弹出的窗口中,在指定一次执行成功记录的“操作”列,单击“查看备份路径”,打开此次任务执行的备份路径信息,查找以下信息:
      • “备份对象”表示备份的数据源。
      • “备份路径”表示备份文件保存的完整路径。
    3. 选择正确的项目,在“备份路径”手工选中备份文件的完整路径并复制。

  2. 创建恢复任务。

    1. 在集群详情页,单击“备份恢复 > 恢复管理”。

      MRS 3.x版本请参考恢复数据

    2. 单击“创建恢复任务”。
    3. 在“任务名称”填写恢复任务的名称。

  3. 选择恢复源。

    在“恢复配置”,勾选待恢复数据的元数据组件。

  4. 设置恢复参数。

    1. 在“路径类型”,选择一个备份目录的类型。
    2. 选择不同的备份目录时,对应设置如下:
      • “LocalDir”:表示备份文件保存在主管理节点的本地磁盘上。选择此参数值,还需要配置“源端路径”,表示备份文件保存位置的完整路径。例如,“数据存放路径/LocalBackup/备份任务名_任务创建时间/数据源_任务执行时间/版本号_数据源_任务执行时间.tar.gz”。
      • “LocalHDFS”:表示备份文件保存在当前集群的HDFS目录。选择此参数值,还需要配置以下参数:
        • “源端路径”:表示备份文件在HDFS中保存的完整路径。例如“备份路径/备份任务名_任务创建时间/版本号_数据源_任务执行时间.tar.gz”。
        • “源实例名称”:选择恢复任务执行时备份目录对应的NameService名称。默认值为“hacluster”。
    3. 单击“确定”保存。

  5. 执行恢复任务。

    在恢复任务列表已创建任务的“操作”列,单击“启动”,开始执行恢复任务。

    • 恢复成功后进度显示为绿色。
    • 恢复成功后此恢复任务不支持再次执行。
    • 如果恢复任务在第一次执行时由于某些原因未执行成功,在排除错误原因后单击“启动”,重试恢复任务。

  6. 恢复了哪个元数据?

    • 恢复了OMS和LdapServer元数据,执行7
    • 恢复了DBService数据,任务结束。
    • 恢复NameNode数据,在MRS集群详情页面,选择“组件管理 > HDFS > 更多 > 重启服务”,任务结束。

  7. 重启服务使恢复数据生效。

    1. 在集群详情页,单击“组件管理”。
    2. 选择“LdapServer > 更多 > 重启服务”,单击“确定”,等待LdapServer服务重启成功。
    3. 登录主管理节点,详情请参见如何确认Manager的主备管理节点
    4. 执行以下命令,重新启动OMS。

      sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh

      提示以下信息表示命令执行成功:

      start HA successfully.
    5. 在集群详情页,单击“组件管理”,选择“KrbServer > 更多 > 同步配置”,不勾选“重启配置过期的服务或实例”,单击“确定”,等待KrbServer服务配置同步及重启成功。
    6. 在集群详情页页面右上角,选择“配置 > 同步配置”,不勾选“重启配置过期的服务或实例”,单击“确定”,等待集群配置同步成功。
    7. 在集群详情页页面右上角,选择“管理操作 > 停止所有组件”。待停止集群的操作生效后,选择“管理操作 > 启动所有组件”,等待集群启动成功。