Restauración de datos de servicio de HDFS
Escenario
Los datos de HDFS deben recuperarse en los siguientes escenarios: los datos se modifican o eliminan inesperadamente y deben restaurarse. Después de que un administrador realice un ajuste de datos críticos en el HDFS, se produce una excepción o la operación no ha logrado el resultado esperado. Todos los módulos están defectuosos y no están disponibles. Los datos se migran a un nuevo clúster.
Los administradores del sistema pueden crear una tarea de recuperación en FusionInsight Manager para recuperar datos de HDFS. Sólo se admiten las tareas de restauración manuales.
- La restauración de datos solo se puede realizar cuando la versión del sistema es coherente con la de la copia de respaldo de datos.
- Para recuperar datos cuando el servicio se está ejecutando correctamente, se le aconseja hacer una copia de respaldo manual de los datos de gestión más recientes antes de recuperar los datos. De lo contrario, los datos de HDFS que se generan después de la copia de respaldo de datos y antes de la recuperación de datos se perderán.
- La operación de restauración HDFS no se puede realizar para los directorios que se utilizan al ejecutar tareas de Yarn, por ejemplo, /tmp/logs, /tmp/archived y /tmp/hadoop-yarn/staging. De lo contrario, la restauración de datos mediante tareas de Distcp falla debido a la pérdida de archivos.
Impacto en el sistema
- Durante la restauración de datos, la autenticación del usuario se detiene y los usuarios no pueden crear nuevas conexiones.
- Después de restaurar los datos, se pierden los datos generados después de la copia de respaldo de datos y antes de la restauración de datos.
- Después de recuperar los datos, es necesario iniciar las aplicaciones de capa superior HDFS.
Prerrequisitos
- Si necesita restaurar datos desde un HDFS remoto, prepare un clúster en espera. Si el clúster activo se despliega en modo de seguridad y los clústeres activo y en espera no son gestionados por el mismo FusionInsight Manager, se ha configurado la confianza mutua. Para obtener más información, consulte Configuración de la confianza mutua Cross-Manager entre clústeres. Si el clúster activo se despliega en modo normal, no se requiere confianza mutua.
- Se ha configurado la replicación entre clústeres para los clústeres activo y en espera. Para obtener más información, consulte Habilitación de la replicación entre clústeres.
- El tiempo es consistente entre los clústeres activos y en espera y los servicios NTP en los clústeres activos y en espera utilizan la misma fuente de tiempo.
- La ruta de guardado del archivo de copia de respaldo de HDFS es correcta.
- Las aplicaciones de capa superior de HDFS se detienen.
Procedimiento
- En FusionInsight Manager, seleccione O&M > Backup and Restoration > Backup Management.
- En la columna Operation de una tarea especificada en la lista de tareas, elija More > View History para ver los registros históricos de ejecución de tareas de copia de respaldo.
En la ventana que se muestra, busque un registro de éxito especificado y haga clic en View en la columna Backup Path para ver la información de la ruta de copia de respaldo de la tarea y buscar la siguiente información:
- Backup Object especifica el origen de datos de los datos de copia de respaldo.
- Backup Path especifica la ruta completa donde se guardan los archivos de copia de respaldo.
Seleccione el elemento correcto y copie manualmente la ruta completa de los archivos de copia de respaldo de Backup Path.
- En FusionInsight Manager, seleccione O&M > Backup and Restoration > Restoration Management.
- Haga clic en Create.
- Establezca Task Name en el nombre de la tarea de restauración.
- Seleccione el clúster que se va a operar desde Recovery Object.
- En Restoration Configuration, seleccione HDFS en Service Data.
- Establezca Path Type de HDFS en un tipo de directorio de copia de respaldo.
Se admiten los siguientes tipos de directorio de copia de respaldo:
- RemoteHDFS: indica que los archivos de copia de respaldo se almacenan en el directorio de HDFS del clúster en espera.
Si selecciona RemoteHDFS, establezca los siguientes parámetros:
- Source NameService Name: indica el nombre de NameService del clúster de datos de copia de respaldo. Puede introducir el nombre integrado de NameService del clúster remoto, por ejemplo, haclusterX, haclusterX1, haclusterX2, haclusterX3 o haclusterX4. También puede introducir un nombre NameService configurado del clúster remoto.
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Source NameNode IP Address: indica la dirección IP del plano de servicio NameNode del clúster en espera, que admite el nodo activo o el nodo en espera.
- Source Path: indica la ruta completa del directorio HDFS para almacenar los datos de copia de respaldo del clúster en espera, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un directorio HDFS del que se ha realizado una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- NFS: indica que los archivos de copia de respaldo se almacenan en el NAS mediante el protocolo NFS. Si selecciona NFS, establezca los siguientes parámetros:
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Server IP Address: indica la dirección IP del servidor NAS.
- Source Path: indica la ruta completa del archivo de copia de respaldo en el servidor de NAS, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un directorio HDFS del que se ha realizado una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- CIFS: indica que los archivos de copia de respaldo se almacenan en el NAS mediante el protocolo CIFS. Si selecciona CIFS, establezca los siguientes parámetros:
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Server IP Address: indica la dirección IP del servidor NAS.
- Port: indica el número de puerto utilizado para conectarse al servidor NAS a través del protocolo CIFS. El valor predeterminado es 445.
- Username: indica el nombre de usuario establecido cuando se configura el protocolo CIFS.
- Password: indica la contraseña establecida cuando se configura el protocolo CIFS.
- Source Path: indica la ruta completa del archivo de copia de respaldo en el servidor de NAS, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un directorio HDFS del que se ha realizado una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- SFTP: indica que los archivos de copia de respaldo se almacenan en el servidor mediante el protocolo SFTP.
Si selecciona SFTP, establezca los siguientes parámetros:
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Server IP Address: indica la dirección IP del servidor donde se almacenan los datos de copia de respaldo.
- Port: indica el número de puerto utilizado para conectarse al servidor de copia de respaldo a través del protocolo SFTP. El valor predeterminado es 22.
- Username: indica el nombre de usuario para conectarse al servidor mediante el protocolo SFTP.
- Password: indica la contraseña para conectarse al servidor mediante el protocolo SFTP.
- Source Path: indica la ruta completa del archivo de copia de respaldo en el servidor de copia de respaldo, por ejemplo, Backup path/Backup task name_Data source_Task creation time/Version_Data source_Task execution time.tar.gz.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un directorio HDFS del que se ha realizado una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- RemoteHDFS: indica que los archivos de copia de respaldo se almacenan en el directorio de HDFS del clúster en espera.
- En la columna Backup Data de la página Data Configuration, seleccione una o más piezas de datos de copia de respaldo que deben restaurarse según los requisitos de servicio. En la columna Target Path, especifique la ubicación de destino después de la restauración de los datos de copia de respaldo.
Se recomienda establecer Target Path en una nueva ruta que sea diferente de la ruta de copia de respaldo.
- Haga clic en Verify para comprobar si la tarea de restauración está configurada correctamente.
- Si el nombre de la cola es incorrecto, la verificación falla.
- Si el directorio especificado que se va a restaurar no existe, la verificación falla.
- Haga clic en OK.
- En la lista de tareas de restauración, busque una tarea creada y haga clic en Start en la columna Operation para ejecutar la tarea de restauración.
- Después de que la restauración es exitosa, la barra de progreso está en verde.
- Una vez que la restauración se realiza correctamente, la tarea de restauración no se puede ejecutar de nuevo.
- Si la tarea de restauración falla durante la primera ejecución, rectifique el error y haga clic en Retry para volver a ejecutar la tarea.