更新时间:2022-02-24 GMT+08:00

备份与恢复简介

概述

MRS Manager提供对系统内的用户数据及系统数据的备份恢复能力,备份功能按组件提供,支持备份管理系统Manager的数据(需要同时备份OMS和LdapServer)、Hive用户数据、DBService中保存的组件元数据和HDFS元数据备份。

备份恢复任务的使用场景如下:

  • 用于日常备份,确保系统及组件的数据安全。
  • 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。
  • 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。
表1 根据业务需要备份元数据

备份类型

备份内容

OMS

默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。

LdapServer

备份用户信息,包括用户名、密码、密钥、密码策略、组信息。

DBService

备份DBService管理的组件(Hive)的元数据。

NameNode

备份HDFS元数据。

原理

任务

在进行备份恢复之前,需要先创建备份恢复任务,并指定任务的参数,例如任务名称、备份数据源和备份文件保存的目录类型等等。通过执行备份恢复任务,用户可完成数据的备份恢复需求。在使用Manager执行恢复HDFS、Hive和NameNode数据时,无法访问集群。

每个备份任务可同时备份不同的数据源,每个数据源将生成独立的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。备份任务提供全量备份或增量备份的策略,增量备份策略支持HDFS和Hive备份任务,OMS、LdapServer、DBService和NameNode备份任务默认只应用全量备份策略。

任务运行规则:

  • 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。
  • 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒以上,否则任务推迟到下个周期启动。手动启动任务无时间间隔限制。
  • 周期任务自动执行时,当前时间不得晚于任务开始时间120秒以上,否则任务推迟到下个周期启动。
  • 周期任务锁定时无法自动执行,需要手动解锁。
  • OMS、LdapServer、DBService和NameNode备份任务开始执行前,若主管理节点“LocalBackup”分区可用空间小于20GB,则无法开始执行。
  • 用户在规划备份恢复任务时,请严格根据业务逻辑、数据存储结构、数据库或表关联关系,选择需要备份或者恢复的数据。系统默认创建了一个间隔为24小时的周期备份任务“default”,支持全量备份OMS、LdapServer、DBService和NameNode数据到Linux本地磁盘。

规格

表2 备份恢复特性规格

项目

规格

备份或恢复任务最大数量(个)

100

同时运行的任务数量(个)

1

等待运行的任务最大数量(个)

199

Linux本地磁盘最大备份文件大小(GB)

600

表3 “default”任务规格

项目

OMS

LdapServer

DBService

NameNode

备份周期

1小时

最大备份数

2个

单个备份文件最大大小

10MB

20MB

100MB

1.5GB

最大占用磁盘大小

20MB

40MB

200MB

3GB

备份数据保存位置

主备管理节点“数据存放路径/LocalBackup/”

“default”任务保存的备份数据,请用户根据企业运维要求,定期转移并保存到集群外部。