Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Cómputo
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gestión y gobernanza
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migración
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análisis
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Otros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Seguridad y cumplimiento
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Blockchain
Blockchain Service
Servicios multimedia
Media Processing Center
Video On Demand
Live
SparkRTC
Almacenamiento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Cloud Server Backup Service
Data Express Service
Dedicated Distributed Storage Service
Contenedores
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bases de datos
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicaciones empresariales
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribución de contenido y cómputo de borde
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluciones
SAP Cloud
High Performance Computing
Servicios para desarrolladores
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
aPaaS MacroVerse
KooPhone
KooDrive
En esta página

Introducción

Actualización más reciente 2023-11-20 GMT+08:00

Descripción

FusionInsight Manager proporciona la copia de respaldo y la restauración de los datos del sistema y de los datos del usuario por componente. El sistema puede hacer copias de respaldo de los datos de Manager, los metadatos de los componentes y los datos de servicio.

Los datos se pueden hacer copias de respaldo en discos locales (LocalDir), HDFS locales (LocalHDFS), HDFS remotos (RemoteHDFS), NAS (NFS/CIFS), Object Storage Service (OBS), y SFTP server (SFTP). Para obtener más información, consulte Copia de respaldo de datos.

Para un componente que admite varios servicios, se pueden realizar copias de respaldo y restaurar varias instancias de un servicio. Las operaciones de copia de respaldo y restauración son coherentes con las de una instancia de servicio.

NOTA:

Solo MRS 3.1.0 o posterior admite la copia de respaldo de datos en OBS.

Las tareas de copia de respaldo y restauración se realizan en los siguientes escenarios:

  • La copia de respaldo de rutina se realiza para garantizar la seguridad de los datos del sistema y los componentes.
  • Si el sistema está defectuoso, la copia de respaldo de datos se puede utilizar para recuperar el sistema.
  • Si el clúster activo es completamente defectuoso, es necesario crear un clúster reflejado idéntico al clúster activo. Puede utilizar los datos de copia de respaldo para restaurar el clúster activo.
Tabla 1 Datos de configuración del Manager que se van a realizar copias de respaldo

Tipo de copia de respaldo

Contenido de la copia de respaldo

Tipo de directorio de copia de respaldo

OMS

Datos de base de datos (excluidos los datos de alarma) y datos de configuración en el sistema de gestión de clústeres de forma predeterminada

  • LocalDir
  • LocalHDFS
  • RemoteHDFS
  • NFS
  • CIFS
  • SFTP
  • OBS
Tabla 2 Metadatos de componentes u otros datos que se van a realizar copias de respaldo

Tipo de copia de respaldo

Contenido de la copia de respaldo

Tipo de directorio de copia de respaldo

DBService

Metadatos de los componentes (incluidos Loader, Hive, Spark, Oozie, y Hue) gestionado por DBService. Para un clúster con varios servicios instalados, realice una copia de respaldo de los metadatos de varias instancias de servicio de Hive y Spark.

  • LocalDir
  • LocalHDFS
  • RemoteHDFS
  • NFS
  • CIFS
  • SFTP
  • OBS

Flink

(Aplicable a MRS 3.2.0 y versiones posteriores)

Metadatos de Flink.

  • LocalDir
  • LocalHDFS
  • RemoteHDFS

Kafka

Metadatos de Kafka.

  • LocalDir
  • LocalHDFS
  • RemoteHDFS
  • NFS
  • CIFS
  • OBS

NameNode

Metadatos de HDFS. Después de agregar múltiples NameServices, se admiten copias de respaldo y restauración para todos ellos y las operaciones son consistentes con las de la instancia de hacluster predeterminada.

  • LocalDir
  • RemoteHDFS
  • NFS
  • CIFS
  • SFTP
  • OBS

Yarn

Información sobre el grupo de recursos del servicio Yarn.

HBase

Archivos tableinfo y archivos de datos de tablas del sistema HBase.

ClickHouse

Metadatos de ClickHouse.

  • LocalDir
  • RemoteHDFS
Tabla 3 Datos de servicio de componentes específicos que se van a realizar copias de respaldo

Tipo de copia de respaldo

Contenido de la copia de respaldo

Tipo de directorio de copia de respaldo

HBase

Datos de usuario a nivel de tabla. Para un clúster con varios servicios instalados, la copia de respaldo y la restauración son compatibles con varias instancias de servicio de HBase y las operaciones de copia de respaldo y restauración son consistentes con las de una sola instancia de servicio de HBase.

  • RemoteHDFS
  • NFS
  • CIFS
  • SFTP

HDFS

Directorios o archivos de servicios de usuario.

NOTA:

Los directorios cifrados no se pueden hacer copias de respaldo ni restaurar.

Hive

Datos de usuario a nivel de tabla. Para un clúster con varios servicios instalados, se admiten copias de respaldo y restauración para varias instancias de servicio de Hive y las operaciones de copia de respaldo y restauración son coherentes con las de una sola instancia de servicio de Hive.

ClickHouse

Datos de usuario a nivel de tabla.

  • RemoteHDFS

Tenga en cuenta que algunos componentes no proporcionan copia de respaldo o restauración de datos:

  • Kafka admite réplicas y permite especificar varias réplicas cuando se crea un tema.
  • Los datos de MapReduce y Yarn se almacenan en HDFS. Por lo tanto, se basan en la copia de respaldo y restauración proporcionada por HDFS.
  • Las copias de respaldo y la restauración de los datos de servicio de ZooKeeper se realizan mediante sus propios componentes de capa superior.

Principios

Tarea

Antes de realizar una copia de respaldo o restauración, debe crear una tarea de copia de respaldo o restauración y establecer parámetros de tarea, como el nombre de la tarea, el origen de datos de copia de respaldo y el tipo del directorio para almacenar los archivos de copia de respaldo. A continuación, puede ejecutar las tareas para realizar una copia de respaldo o restaurar los datos. Cuando se utiliza Manager para restaurar los datos de HDFS, HBase, Hive y NameNode, no se puede acceder al clúster.

Cada tarea de copia de respaldo puede realizar copias de respaldo de datos de diferentes orígenes de datos y generar un archivo de copia de respaldo independiente para cada origen de datos. Todos los archivos de copia de respaldo generados en una tarea de copia de respaldo forman un conjunto de archivos de copia de respaldo, que se pueden utilizar en tareas de restauración. Los datos de copia de respaldo se pueden almacenar en discos locales de Linux, HDFS de clúster local y HDFS de clúster en espera.

Las tareas de copia de respaldo admiten políticas de copia de respaldo completas e incrementales. Las tareas de copia de respaldo de datos en la nube no admiten copias de respaldo incrementales. Si el tipo de directorio de copia de respaldo es NFS o CIFS, no se recomienda realizar una copia de respaldo incremental. Cuando se utiliza la copia de respaldo incremental para la copia de respaldo de NFS o CIFS, los datos de copia de respaldo completa más recientes se actualizan cada vez que se realiza la copia de respaldo incremental. Por lo tanto, no se genera ningún nuevo punto de recuperación.

NOTA:

Reglas de ejecución de tareas:

  • Si se está ejecutando una tarea, la tarea no se puede ejecutar repetidamente y otras tareas no se pueden iniciar al mismo tiempo.
  • El intervalo en el que se ejecuta automáticamente una tarea periódica debe ser superior a 120 segundos. De lo contrario, la tarea se pospone y se ejecutará en el próximo período. Las tareas manuales se pueden ejecutar en cualquier intervalo.
  • Cuando se va a ejecutar automáticamente una tarea periódica, la hora actual no puede ser 120 segundos más tarde que la hora de inicio de la tarea. De lo contrario, la tarea se pospone y se ejecuta en el siguiente período.
  • Cuando se bloquea una tarea periódica, no se puede ejecutar automáticamente y es necesario desbloquearla manualmente.
  • Antes de que se inicie una tarea de copia de respaldo de OMS, DBService, Kafka o NameNode, asegúrese de que la partición LocalBackup del nodo de gestión activo no tenga menos de 20 GB de espacio disponible. De lo contrario, no se puede iniciar la tarea de copia de respaldo.

Cuando planifique las tareas de copia de respaldo y restauración, seleccione los datos que se van a hacer copia de respaldo o restaurar estrictamente en función de la lógica del servicio, la estructura del almacén de datos y la asociación de bases de datos o tablas. De forma predeterminada, el sistema crea tareas de copia de respaldo periódicas default-oms y default-cluster ID en un intervalo de una hora. Los metadatos de OMS y los metadatos de clúster, como DBService y NameNode, se pueden realizar copias de respaldo completas en discos locales.

Instantánea

El sistema utiliza la tecnología de instantáneas para realizar rápidamente copias de respaldo de los datos. Las instantáneas incluyen instantáneas de HBase y HDFS.

  • Instantáneas de HBase

    Una instantánea de HBase es un archivo de copia de respaldo de tablas de HBase en un punto de tiempo especificado. Este archivo de copia de respaldo no replica datos de servicio ni afecta al RegionServer. La instantánea de HBase replica metadatos de tabla, incluidos descriptor de tabla, información de región e información de referencia de HFile. Los metadatos se pueden utilizar para restaurar datos antes del tiempo de creación de instantáneas.

  • Instantáneas de HDFS

    Una instantánea HDFS es una copia de respaldo de solo lectura de HDFS en un punto de tiempo especificado. La instantánea se utiliza en copia de respaldo de datos, protección de mal funcionamiento y escenarios de recuperación ante desastres.

    La función de instantánea se puede habilitar para que cualquier directorio de HDFS cree el archivo de instantánea relacionado. Antes de crear una instantánea para un directorio, el sistema activa automáticamente la función de instantánea para el directorio. La creación de una instantánea no afecta a ninguna operación de HDFS. Se puede crear un máximo de 65,536 instantáneas para cada directorio de HDFS.

    Cuando se crea una instantánea para un directorio de HDFS, el directorio no se puede eliminar ni modificar antes de crear la instantánea. No se pueden crear instantáneas para los directorios o subdirectorios de capa superior del directorio.

DistCp

Distributed copy (DistCp) es una herramienta utilizada para replicar una gran cantidad de datos en HDFS en un clúster o entre los HDFS de diferentes clústeres. En una tarea de copia de respaldo o restauración de HBase, HDFS, o Hive, si realiza una copia de respaldo de los datos en HDFS del clúster en espera, el sistema invoca a DistCp para realizar la operación. Instale el software de de la misma versión para los clústeres activo y en espera e instale el clúster.

DistCp utiliza MapReduce para implementar la distribución de datos, la solución de problemas, la restauración y el informe. DistCp especifica diferentes trabajos de Map para varios archivos y directorios de origen en la lista especificada. Cada trabajo de Map copia los datos de la partición que corresponde al archivo especificado en la lista.

Si utiliza DistCp para replicar datos entre HDFS de dos clústeres, configure la confianza mutua entre clústeres (no es necesario configurar la confianza mutua para clústeres gestionados por el mismo FusionInsight Manager) y replicación entre clústeres para ambos clústeres. Cuando realice una copia de respaldo de los datos del clúster en HDFS en otro clúster, debe instalar el componente Yarn. De hacerlo, no se realizará la copia de respaldo.

Restauración rápida local

Después de utilizar DistCp para realizar una copia de respaldo de los datos HBase, HDFS y Hive del clúster local en el HDFS del clúster en espera, el HDFS del clúster local conserva las instantáneas de datos de copia de respaldo. Puede crear tareas de restauración rápida locales para restaurar datos mediante los archivos de instantáneas en el HDFS del clúster local.

NAS

El almacenamiento conectado a la red (NAS) es un servidor de almacenamiento de datos dedicado que incluye los componentes de almacenamiento y el software del sistema integrado. Proporciona la función de intercambio de archivos entre plataformas. Mediante el uso de NFS (que admite NFSv3 y NFSv4) y CIFS (que admite SMBv2 y SMBv3), puede conectar el plano de servicio de al servidor NAS para realizar copias de respaldo de los datos en el NAS o restaurar los datos desde el NAS.

NOTA:
  • Antes de realizar una copia de respaldo de los datos en el NAS, el sistema monta automáticamente la dirección compartida del NAS en una partición local del nodo de ejecución de tareas de copia de respaldo. Una vez completada la copia de respaldo, el sistema desmonta la partición compartida del NAS del nodo de ejecución de tareas de copia de respaldo.
  • Para evitar fallas de copia de respaldo y restauración, no acceda a la dirección compartida donde se ha montado el servidor NAS, por ejemplo, /srv/BigData/LocalBackup/nas durante la copia de respaldo y restauración de datos.
  • Cuando se realiza una copia de respaldo de los datos de servicio en el NAS, se utiliza DistCp.

Especificaciones

Tabla 4 Especificaciones de la función de copia de respaldo y restauración

Concepto

Especificación

Número máximo de tareas de copia de respaldo o restauración

100

Número de tareas simultáneas en un clúster

1

Número máximo de tareas en espera

199

Tamaño máximo (GB) de los archivos de copia de respaldo en un disco local de Linux

600

NOTA:

Si los datos de servicio se almacenan en los componentes de capa superior de ZooKeeper, asegúrese de que el número de znodes en una sola tarea de copia de respaldo o restauración no sea demasiado grande. De lo contrario, la tarea fallará y el rendimiento del servicio ZooKeeper se verá afectado. Para comprobar el número de znodes en una sola tarea de copia de respaldo o restauración, realice las siguientes operaciones:

  • Asegúrese de que el número de znodes en una sola tarea de copia de respaldo o restauración sea menor que el límite superior de los controladores de archivos del sistema operativo. Específicamente:
    1. Para comprobar el límite superior en el nivel del sistema, ejecute el comando cat /proc/sys/fs/file-max.
    2. Para comprobar el límite superior a nivel de usuario, ejecute el comando ulimit -n.
  • Si el número de znodes en el directorio principal excede el límite superior, realice una copia de respaldo y restaure los datos en sus subdirectorios en lotes. Para comprobar el número de znodes que utilizan scripts de cliente ZooKeeper, realice las siguientes operaciones:
    1. En FusionInsight Manager, elija Cluster, haga clic en el nombre del clúster deseado, elija Services > ZooKeeper > Instance, y vea la dirección IP de gestión de cada rol de ZooKeeper.
    2. Inicie sesión en el nodo donde se encuentra el cliente y ejecute el siguiente comando:

      zkCli.sh -server ip:port, donde, ip puede ser cualquier dirección IP de gestión, y el número de puerto predeterminado es 2181.

    3. Si se muestra la siguiente información, el inicio de sesión en el servidor ZooKeeper se realiza correctamente:
      WatchedEvent state:SyncConnected type:None path:null
      [zk: ip:port(CONNECIED) 0]
    4. Ejecute el comando getusage para verificar el número de znodes en el directorio que se va a realizar la copia de respaldo.

      Por ejemplo, getusage /hbase/region. En la salida del comando, Node count=xxxxxx indica el número de znodes almacenados en el directorio region.

Tabla 5 Especificaciones de la tarea default

Concepto

OMS

HBase

Kafka

DBService

NameNode

Período de copia de respaldo

1 hora

Número máximo de copias de respaldo

168 (datos históricos de 7 días)

24 (datos históricos de un día)

Tamaño máximo de un archivo de copia de respaldo

10 MB

10 MB

512 MB

100 MB

20 GB

Tamaño máximo del espacio en disco utilizado

1.64 GB

1.64 GB

84 GB

16.41 GB

480 GB

Ruta de almacenamiento de datos de copia de respaldo

Data storage path/LocalBackup/ de los nodos de gestión activo y en espera

NOTA:
  • Los datos de copia de respaldo de la tarea de copia de respaldo predeterminada deben transferirse y guardarse periódicamente fuera del clúster según los requisitos de O&M de la empresa.
  • Los administradores pueden crear tareas de copia de respaldo de DistCp para guardar datos de OMS, DBService y NameNode en clústeres externos.
  • El tiempo de ejecución de una tarea de copia de respaldo de datos del clúster se puede calcular utilizando la siguiente fórmula: Tiempo de ejecución de la tarea = Volumen de datos que se van a hacer copias de respaldo/Ancho de banda de red entre el clúster y el dispositivo de copia de respaldo. En la práctica, se recomienda multiplicar el tiempo calculado por 1.5 para obtener el valor de referencia del tiempo de ejecución de la tarea.
  • La ejecución de una tarea de copia de respaldo de datos afecta al rendimiento máximo de E/S del clúster. Por lo tanto, se recomienda ejecutar una tarea de copia de respaldo durante las horas no pico.

Utilizamos cookies para mejorar nuestro sitio y tu experiencia. Al continuar navegando en nuestro sitio, tú aceptas nuestra política de cookies. Descubre más

Comentarios

Comentarios

Comentarios

0/500

Seleccionar contenido

Enviar el contenido seleccionado con los comentarios