备份与恢复简介
概述
MRS Manager提供对系统内的用户数据及系统数据的备份恢复能力,备份功能按组件提供,支持备份管理系统Manager的数据(需要同时备份OMS和LdapServer)、Hive用户数据、DBService中保存的组件元数据和HDFS元数据备份。
备份恢复任务的使用场景如下:
- 用于日常备份,确保系统及组件的数据安全。
- 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。
- 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。
备份类型 |
备份内容 |
---|---|
OMS |
默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 |
LdapServer |
备份用户信息,包括用户名、密码、密钥、密码策略、组信息。 |
DBService |
备份DBService管理的组件(Hive)的元数据。 |
NameNode |
备份HDFS元数据。 |
原理
任务
在进行备份恢复之前,需要先创建备份恢复任务,并指定任务的参数,例如任务名称、备份数据源和备份文件保存的目录类型等等。通过执行备份恢复任务,用户可完成数据的备份恢复需求。在使用Manager执行恢复HDFS、Hive和NameNode数据时,无法访问集群。
每个备份任务可同时备份不同的数据源,每个数据源将生成独立的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。备份任务提供全量备份或增量备份的策略,增量备份策略支持HDFS和Hive备份任务,OMS、LdapServer、DBService和NameNode备份任务默认只应用全量备份策略。
任务运行规则:
- 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。
- 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒以上,否则任务推迟到下个周期启动。手动启动任务无时间间隔限制。
- 周期任务自动执行时,当前时间不得晚于任务开始时间120秒以上,否则任务推迟到下个周期启动。
- 周期任务锁定时无法自动执行,需要手动解锁。
- OMS、LdapServer、DBService和NameNode备份任务开始执行前,若主管理节点“LocalBackup”分区可用空间小于20GB,则无法开始执行。
- 用户在规划备份恢复任务时,请严格根据业务逻辑、数据存储结构、数据库或表关联关系,选择需要备份或者恢复的数据。系统默认创建了一个间隔为24小时的周期备份任务“default”,支持全量备份OMS、LdapServer、DBService和NameNode数据到Linux本地磁盘。
规格
项目 |
规格 |
---|---|
备份或恢复任务最大数量(个) |
100 |
同时运行的任务数量(个) |
1 |
等待运行的任务最大数量(个) |
199 |
Linux本地磁盘最大备份文件大小(GB) |
600 |
项目 |
OMS |
LdapServer |
DBService |
NameNode |
---|---|---|---|---|
备份周期 |
1小时 |
|||
最大备份数 |
2个 |
|||
单个备份文件最大大小 |
10MB |
20MB |
100MB |
1.5GB |
最大占用磁盘大小 |
20MB |
40MB |
200MB |
3GB |
备份数据保存位置 |
主备管理节点“数据存放路径/LocalBackup/” |
“default”任务保存的备份数据,请用户根据企业运维要求,定期转移并保存到集群外部。