Restauración de datos de servicio de Hive
Escenario
Los datos de Hive deben recuperarse en los siguientes escenarios: los datos se modifican o eliminan inesperadamente y deben restaurarse. Después de que un administrador realice un ajuste de datos críticos en Hive, se produce una excepción o la operación no ha logrado el resultado esperado. Todos los módulos están defectuosos y no están disponibles. Los datos se migran a un nuevo clúster.
Los administradores del sistema pueden crear una tarea de recuperación en FusionInsight Manager para recuperar datos de Hive. Sólo se admiten las tareas de restauración manuales.
La copia de respaldo y restauración de Hive no pueden identificar las relaciones de servicio y estructura de objetos como tablas, índices y vistas de Hive. Al ejecutar tareas de copia de respaldo y restauración, debe gestionar puntos de restauración unificados basados en escenarios de servicio para garantizar la ejecución adecuada del servicio.
- La restauración de datos solo se puede realizar cuando la versión del sistema es coherente con la de la copia de respaldo de datos.
- Para recuperar datos cuando el servicio se está ejecutando correctamente, se le aconseja hacer una copia de respaldo manual de los datos de gestión más recientes antes de recuperar los datos. De lo contrario, los datos de Hive que se generan después de la copia de respaldo de datos y antes de la recuperación de datos se perderán.
Impacto en el sistema
- Durante la restauración de datos, la autenticación del usuario se detiene y los usuarios no pueden crear nuevas conexiones.
- Después de restaurar los datos, se pierden los datos generados después de la copia de respaldo de datos y antes de la restauración de datos.
- Después de recuperar los datos, es necesario iniciar las aplicaciones de capa superior de Hive.
Prerrequisitos
- Si necesita restaurar datos desde un HDFS remoto, prepare un clúster en espera. Si el clúster activo se despliega en modo de seguridad y los clústeres activo y en espera no son gestionados por el mismo FusionInsight Manager, se ha configurado la confianza mutua. Para obtener más información, consulte Configuración de la confianza mutua Cross-Manager entre clústeres. Si el clúster activo se despliega en modo normal, no se requiere confianza mutua.
- Se ha configurado la replicación entre clústeres para los clústeres activo y en espera. Para obtener más información, consulte Habilitación de la replicación entre clústeres.
- El tiempo es consistente entre los clústeres activos y en espera y los servicios NTP en los clústeres activos y en espera utilizan la misma fuente de tiempo.
- Se planifican la base de datos para almacenar tablas de datos restauradas, la ruta de guardado HDFS de tablas de datos y la lista de usuarios que pueden acceder a los datos restaurados.
- La ruta de guardado del archivo de copia de respaldo de Hive es correcta.
- Las aplicaciones de la capa superior de Hive se detienen.
Procedimiento
- En FusionInsight Manager, seleccione O&M > Backup and Restoration > Backup Management.
- En la columna Operation de una tarea especificada en la lista de tareas, elija More > View History para ver los registros históricos de ejecución de tareas de copia de respaldo.
En la ventana que se muestra, busque un registro de éxito especificado y haga clic en View en la columna Backup Path para ver la información de la ruta de copia de respaldo de la tarea y buscar la siguiente información:
- Backup Object especifica el origen de datos de los datos de copia de respaldo.
- Backup Path especifica la ruta completa donde se guardan los archivos de copia de respaldo.
Seleccione el elemento correcto y copie manualmente la ruta completa de los archivos de copia de respaldo de Backup Path.
- En FusionInsight Manager, seleccione O&M > Backup and Restoration > Restoration Management.
- Haga clic en Create.
- Establezca Task Name en el nombre de la tarea de restauración.
- Seleccione el clúster que se va a operar desde Recovery Object.
- En el área Restoration Configuration, seleccione Hive.
- Establezca Path Type de Hive en un tipo de directorio de copia de respaldo.
Se admiten los siguientes tipos de directorio de copia de respaldo:
- RemoteHDFS: indica que los archivos de copia de respaldo se almacenan en el directorio de HDFS del clúster en espera. Si selecciona RemoteHDFS, establezca los siguientes parámetros:
- Source NameService Name: indica el nombre de NameService del clúster de datos de copia de respaldo. Puede introducir el nombre integrado de NameService del clúster remoto, por ejemplo, haclusterX, haclusterX1, haclusterX2, haclusterX3 o haclusterX4. También puede introducir un nombre NameService configurado del clúster remoto.
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Source NameNode IP Address: indica la dirección IP del plano de servicio NameNode del clúster en espera, que admite el nodo activo o el nodo en espera.
- Source Path: indica la ruta completa del directorio HDFS para almacenar los datos de copia de respaldo del clúster en espera, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un conjunto de archivos de copia de respaldo de Hive del que se ha hecho una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- NFS: indica que los archivos de copia de respaldo se almacenan en el NAS mediante el protocolo NFS. Si selecciona NFS, establezca los siguientes parámetros:
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Server IP Address: indica la dirección IP del servidor NAS.
- Source Path: indica la ruta completa del archivo de copia de respaldo en el servidor de NAS, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un conjunto de archivos de copia de respaldo de Hive del que se ha hecho una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- CIFS: indica que los archivos de copia de respaldo se almacenan en el NAS mediante el protocolo CIFS. Si selecciona CIFS, establezca los siguientes parámetros:
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Server IP Address: indica la dirección IP del servidor NAS.
- Port: indica el número de puerto utilizado para conectarse al servidor NAS a través del protocolo CIFS. El valor predeterminado es 445.
- Username: indica el nombre de usuario establecido cuando se configura el protocolo CIFS.
- Password: indica la contraseña establecida cuando se configura el protocolo CIFS.
- Source Path: indica la ruta completa del archivo de copia de respaldo en el servidor de NAS, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un conjunto de archivos de copia de respaldo de Hive del que se ha hecho una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 100.
- SFTP: indica que los archivos de copia de respaldo se almacenan en el servidor mediante el protocolo SFTP.
Si selecciona SFTP, establezca los siguientes parámetros:
- IP Mode: indica el modo de la dirección IP de destino. El sistema selecciona automáticamente el modo de dirección IP en función del tipo de red del clúster, por ejemplo IPv4 o IPv6.
- Server IP Address: indica la dirección IP del servidor donde se almacenan los datos de copia de respaldo.
- Port: indica el número de puerto utilizado para conectarse al servidor de copia de respaldo a través del protocolo SFTP. El valor predeterminado es 22.
- Username: indica el nombre de usuario para conectarse al servidor mediante el protocolo SFTP.
- Password: indica la contraseña para conectarse al servidor mediante el protocolo SFTP.
- Source Path: indica la ruta completa del archivo de copia de respaldo en el servidor de copia de respaldo, por ejemplo, Backup path/Backup task name_Data source_Task creation time.
- Queue Name: indica el nombre de la cola de Yarn utilizada para la ejecución de tareas de copia de respaldo.
- Recovery Point List: Haga clic en Refresh y seleccione un directorio HDFS del que se ha realizado una copia de respaldo en el clúster en espera.
- Target NameService Name: indica el nombre de NameService del directorio de copia de respaldo. El valor predeterminado es hacluster.
- Maximum Number of Maps: indica el número máximo de map en una tarea de MapReduce. El valor predeterminado es 20.
- Maximum Bandwidth of a Map (MB/s): indica el ancho de banda máximo de un map. El valor predeterminado es 1.
- RemoteHDFS: indica que los archivos de copia de respaldo se almacenan en el directorio de HDFS del clúster en espera. Si selecciona RemoteHDFS, establezca los siguientes parámetros:
- Establezca Backup Data en el Data Configuration en uno o varios orígenes de datos de copia de respaldo que se recuperarán según los requisitos de servicio. En las columnas Target Database y Target Path, especifique la base de datos de destino y la ruta de guardado del archivo después de la recuperación de los datos de copia de respaldo.
Restricciones de configuración:
- Los datos se pueden restaurar en la base de datos original, pero las tablas de datos deben almacenarse en una nueva ruta que sea diferente de la ruta de copia de respaldo.
- Para restaurar las tablas de índice de Hive, seleccione las tablas de datos de Hive que correspondan a las tablas de índice de Hive que se van a restaurar.
- Si se selecciona un nuevo directorio de restauración para evitar que afecte a los datos actuales, se debe conceder manualmente el permiso HDFS para que los usuarios que tienen permiso para realizar copias de respaldo de tablas puedan tener acceso a este directorio.
- Los datos se pueden restaurar en otras bases de datos. En este caso, el permiso HDFS debe concederse manualmente para que los usuarios que tienen permiso de las tablas de copia de respaldo puedan acceder al directorio HDFS que corresponde a la base de datos.
- Establezca Force recovery en true que indica que debe recuperar a la fuerza todos los datos de copia de respaldo cuando ya existe una tabla de datos con el mismo nombre. Si la tabla de datos contiene nuevos datos agregados después de la copia de respaldo, los nuevos datos se perderán después de la recuperación de datos. Si establece el parámetro en false, la tarea de restauración no se ejecuta si existe una tabla de datos con el mismo nombre.
- Haga clic en Verify para comprobar si la tarea de restauración está configurada correctamente.
- Si el nombre de la cola es incorrecto, la verificación falla.
- Si el directorio especificado que se va a restaurar no existe, la verificación falla.
- Si no se cumplen las condiciones de sustitución forzada, la verificación falla.
- Haga clic en OK.
- En la lista de tareas de restauración, busque una tarea creada y haga clic en Start en la columna Operation para ejecutar la tarea de restauración.
- Después de que la restauración es exitosa, la barra de progreso está en verde.
- Una vez que la restauración se realiza correctamente, la tarea de restauración no se puede ejecutar de nuevo.
- Si la tarea de restauración falla durante la primera ejecución, rectifique el error y haga clic en Retry para volver a ejecutar la tarea.